
Come pulire i dati prima di visualizzarli in Looker
La regola d'oro dell'analisi dei dati è semplice ma brutale: "Garbage In, Garbage Out."
Se usi Looker, probabilmente apprezzerai le sue capacità di visualizzazione, ma probabilmente odi la difficoltà di preparare i dati. Che tu stia lottando con modelli LookML complessi o semplicemente stanco di file disordinati che danneggiano i tuoi dashboard nel livello di modellazione, pulire i dati prima dell'importazione è il segreto per un flusso di lavoro senza stress.
L'incubo specifico: timestamp e date
Il più grande nemico di qualsiasi analista di dati è la colonna Data. Conosci la procedura: importi un set di dati in Looker e all'improvviso i tuoi grafici delle serie temporali vengono interrotti perché:
- Alcune date sono "GG/MM/AAAA" (stile europeo).
- Gli altri sono "MM-GG-AAAA" (stile USA).
- Alcuni sono solo stringhe di testo come "12 gennaio 2024".
Per risolvere questo problema all'interno di Looker di solito è necessario scrivere funzioni di analisi complesse, creare formule rigide o modificare manualmente le celle in Excel. È soggetto a errori e noioso.
La filosofia di Datastripes: "Accetta tutto, ottieni uno"

Datastripes adotta un approccio radicalmente diverso alla pulizia dei dati, in particolare per i timestamp.
Invece di chiederti di scrivere codice per definire il formato della data, Datastripes utilizza un motore di inserimento intelligente che accetta automaticamente formati misti.
- Importazione: elimini il tuo database CSV o SQL non elaborato. Datastripes rileva la colonna Data, anche se contiene 5 formati diversi mescolati insieme.
- Standardizzazione: il sistema converte automaticamente tutto in un unico standard universale (ISO 8601).
- Controllo visivo: viene visualizzata immediatamente una distribuzione temporale. Se sono presenti valori anomali (ad esempio, una data nell'anno 2099), li individui visivamente e li filtri con un clic. Non ti preoccupare di come è scritta la data. Sai solo che ciò che viene fuori è un timestamp pulito e ordinabile.
Oltre le date: una pipeline visiva
Non è solo una questione di date. Utilizzando un flusso di nodo visivo prima di inviare dati a Looker, puoi:
- Deduplica le righe in base agli ID senza scrivere SQL.
- Categorie di gruppo (ad esempio, trasformando "USA", "U.S." e "US" in "Stati Uniti") tramite una semplice interfaccia.
- Filtra i valori anomali visivamente utilizzando gli istogrammi.
Perché non farlo semplicemente in Looker?
Looker è progettato per visualizzare e analizzare dati, non necessariamente per eliminare file sporchi. Quando carichi i tuoi modelli LookML complessi con una logica di pulizia pesante, i tuoi dashboard diventano più lenti e più difficili da mantenere.
Utilizzando Datastripes come livello leggero di "pre-elaborazione", trasferisci un set di dati incontaminato a Looker.
- I tuoi dashboard si caricano più velocemente.
- Le tue formule diventano più semplici.
- Smetti di eseguire il debug dei formati di data e inizi a trovare approfondimenti.
Provalo
Smetti di lottare con CSV disordinati e script complessi. Pulisci visivamente i tuoi dati in pochi minuti, quindi esportali per Looker.
Prova Datastripes gratuitamente e visualizza i tuoi dati in modo chiaro per la prima volta.