2 min read

Cómo limpiar datos antes de visualizarlos en Looker

La regla de oro del análisis de datos es simple pero brutal: "Basura entra, basura sale".

Si usa Looker, probablemente le encantarán sus capacidades de visualización, pero probablemente odie la dificultad de preparar datos para ello. Ya sea que esté luchando con modelos complejos de LookML o simplemente cansado de que archivos desordenados rompan sus paneles en la capa de modelado, limpiar los datos antes de importar es el secreto para un flujo de trabajo libre de estrés.

La pesadilla específica: marcas de tiempo y fechas

El mayor enemigo de cualquier analista de datos es la columna Fecha. Ya conoces el procedimiento: importas un conjunto de datos a Looker y, de repente, tus gráficos de series temporales se rompen porque:

Algunas fechas son "DD/MM/AAAA" (estilo europeo).
Otros son "MM-DD-AAAA" (estilo estadounidense).
Algunas son solo cadenas de texto como "12 de enero de 2024".

Arreglar este problema dentro de Looker generalmente requiere escribir funciones de análisis complejas, crear fórmulas rígidas o editar celdas manualmente en Excel. Es aburrido y propenso a errores.

La filosofía de Datastripes: "Acepte todo, produzca uno"

Datastripes en acción

Datastripes adopta un enfoque radicalmente diferente para la limpieza de datos, especialmente para las marcas de tiempo.

En lugar de pedirle que escriba código para definir el formato de fecha, Datastripes utiliza un motor de ingesta inteligente que acepta formatos mixtos automáticamente.

Ingesta: Colocas tu base de datos CSV o SQL sin procesar. Datastripes detecta la columna Fecha, incluso si contiene 5 formatos diferentes mezclados.
Estandarizar: El sistema convierte todo automáticamente en un estándar único y universal (ISO 8601).
Verificación visual: Verá una distribución en la línea de tiempo de inmediato. Si hay valores atípicos (por ejemplo, una fecha en el año 2099), los detecta visualmente y los filtra con un clic. No te preocupas por cómo se escribe la fecha. Simplemente sabes que lo que sale es una marca de tiempo limpia y ordenable.

Más allá de las fechas: un canal visual

No se trata sólo de citas. Al utilizar un flujo de nodo visual antes de enviar datos a Looker, puedes:

Deduplicar filas según los ID sin escribir SQL.
Categorías de grupo (por ejemplo, convertir "EE.UU.", "EE.UU." y "EE.UU." en "Estados Unidos") a través de una interfaz sencilla.
Filtrar valores atípicos visualmente usando histogramas.

¿Por qué no hacerlo simplemente en Looker?

Looker está diseñado para visualizar y analizar datos, no necesariamente para limpiar archivos sucios. Cuando cargas tus modelos complejos de LookML con una lógica de limpieza intensa, tus paneles se vuelven más lentos y más difíciles de mantener.

Al utilizar Datastripes como una capa ligera de "preprocesamiento", entregas un conjunto de datos impecable a Looker.

Tus paneles se cargan más rápido.
Tus fórmulas se vuelven más simples.
Dejas de depurar formatos de fecha y comienzas a encontrar información.

Pruébalo

Deja de luchar con archivos CSV desordenados y scripts complejos. Limpie sus datos visualmente en minutos y luego expórtelos listos para Looker.

Pruebe Datastripes gratis y vea sus datos claramente por primera vez.