Calidad de datos en pipelines ETL/ELT en empresa

David Aldomar

Calidad de datos en pipelines ETL/ELT en empresa

Guía práctica para integrar controles de calidad de datos en pipelines de datos: qué tipos de checks implementar, cuándo ejecutarlos y qué herramientas usar.

David Aldomar7 de mayo de 2026Actualizado: 17 de abril de 20269 min lectura

Calidad de datos en pipelines ETL y ELT: qué controlar y cómo hacerlo sin frenar el proyecto

📌 En resumen

La calidad de datos en un pipeline ETL o ELT se garantiza con controles automáticos que verifican las propiedades esperadas de los datos en puntos críticos del flujo: completitud (no nulos donde no deben), unicidad (no duplicados en claves primarias), integridad referencial (claves foráneas existentes), rangos válidos (valores dentro de límites esperados) y frescura (los datos se han actualizado en el plazo esperado).

La calidad de datos en los pipelines es uno de esos temas que todos saben que importa y que la mayoría pospone para después del lanzamiento. El problema es que después del lanzamiento los dashboards ya están en producción y cuando los checks fallan hay usuarios afectados. Esta guía explica cómo integrar la calidad en el pipeline desde el inicio sin convertirlo en un proyecto separado.

¿Qué tipos de controles de calidad necesita un pipeline?

Tipos de controles de calidad de datos y cuándo aplicarlos en el pipeline.
Tipo de control	Qué verifica	Dónde aplicarlo
Completitud	Campos obligatorios no nulos	Capa staging (datos crudos)
Unicidad	No duplicados en claves primarias	Capa staging y dimensional
Integridad referencial	Claves foráneas existen en tabla padre	Capa dimensional
Rango válido	Valores dentro de límites lógicos (precio > 0, porcentaje 0-100)	Capa de transformación
Frescura	Los datos se han actualizado en el plazo esperado	Monitorización continua
Consistencia	El mismo dato tiene el mismo valor en sistemas distintos	Capa de reconciliación
Volumen esperado	El número de filas está en rango normal	Capa staging y mart

dbt Tests: la forma más sencilla de empezar

Si tu stack de transformación usa dbt, los tests nativos son la forma más sencilla de implementar calidad de datos sin añadir herramientas adicionales. dbt tiene cuatro tests declarativos out of the box: not_null, unique, accepted_values y relationships. Se configuran en archivos YAML junto al modelo, se ejecutan con 'dbt test' y fallan el pipeline si no pasan. Para el 70–80% de los controles básicos de una empresa mediana, esto es suficiente. Para controles más complejos, dbt-utils y dbt-expectations añaden muchas más opciones sin salir del framework de dbt.

Cómo priorizar qué controles implementar primero

1Identifica las métricas de negocio más críticas del dashboard — las que si son incorrectas generarían decisiones equivocadas.
2Traza el linaje de esas métricas hasta la fuente para entender qué campos les alimentan.
3Implementa controles críticos solo en esos campos críticos primero. No trates de controlar todo a la vez.
4Define qué controles bloquean el pipeline (fallos que producen datos incorrectos) y qué controles solo alertan (anomalías que pueden tener explicación).
5Añade el resto de controles progresivamente a medida que el equipo identifica nuevas anomalías en producción.

Monitorización continua: Great Expectations y Soda

Para controles más avanzados o para monitorización continua de los datos en producción (no solo en el momento de la carga), Great Expectations y Soda Core son las herramientas más maduras. Great Expectations es más flexible y potente pero tiene una curva de aprendizaje mayor. Soda Core es más sencillo de implementar y tiene integración directa con dbt. Ambas permiten definir expectativas sobre los datos y ejecutarlas de forma programada para detectar degradaciones de calidad entre cargas.

Arquitectura de controles: dónde colocar cada check en el pipeline

Un error habitual es concentrar todos los controles de calidad en un único punto del pipeline. Lo más eficaz es distribuirlos en capas, de forma que cada etapa valide lo que le corresponde y los problemas se detecten lo antes posible.

Capa de ingesta (staging)

Aquí los datos llegan tal cual los entrega la fuente. Los controles en esta capa verifican que la estructura es la esperada: número de columnas correcto, tipos de datos consistentes, campos obligatorios presentes y volumen dentro del rango habitual. Si una fuente que normalmente envía 10.000 registros envía 500, algo ha cambiado y conviene investigar antes de seguir.

Capa de transformación

Después de las transformaciones (limpieza, joins, cálculos), los controles verifican que la lógica de negocio se ha aplicado correctamente. Aquí es donde se comprueban rangos válidos (un descuento no puede ser del 200%), consistencia entre campos relacionados (la fecha de envío no puede ser anterior a la fecha de pedido) y que los cálculos derivados cuadran con los datos de entrada.

Capa de consumo (mart)

Antes de que los datos lleguen al dashboard o al sistema que los consume, los controles finales verifican integridad referencial, unicidad de claves primarias y que las métricas de negocio cuadran con fuentes de contraste. Es la última barrera antes de que un dato incorrecto afecte a una decisión.

ℹ️ Nota

Una regla práctica: si el control detecta un problema que haría que el dashboard muestre datos incorrectos, debe bloquear el pipeline. Si detecta algo inusual pero no necesariamente incorrecto (un volumen atípico, un valor extremo pero posible), debería alertar sin bloquear. Distinguir entre ambos tipos desde el principio evita falsos positivos que acaban haciendo que el equipo ignore las alertas.

Patrones de error más comunes en pipelines reales

Estos son los problemas que aparecen con más frecuencia en pipelines de datos empresariales y que los controles de calidad deben cubrir:

Duplicados silenciosos: un cambio en la frecuencia de carga o un retry mal gestionado introduce registros duplicados que inflan métricas sin que nadie lo note hasta que las cifras no cuadran con otro sistema.
Cambios de esquema no comunicados: el equipo de origen añade una columna, cambia un tipo de dato o renombra un campo. Sin un check de esquema en staging, el pipeline falla o, peor, procesa datos incorrectamente sin error visible.
Valores por defecto que pasan como reales: campos que llegan con un 0 o una cadena vacía en lugar de nulo. El pipeline los trata como datos válidos y las métricas se distorsionan.
Desfases temporales entre fuentes: cuando el pipeline cruza datos de dos fuentes con frecuencias de actualización distintas, puede generar inconsistencias temporales que parecen errores de calidad pero son problemas de sincronización.
Drift de distribución: los datos siguen llegando correctos individualmente, pero la distribución general cambia (más ventas en una categoría, menos clientes activos). Si no monitorizas la distribución además de los valores individuales, no detectas el cambio hasta que alguien pregunta por qué las cifras no cuadran.

Cómo gestionar los fallos de calidad sin paralizar al equipo

Siguiente paso

Plataforma de datos

Calidad de datos automatizada integrada en el pipeline desde el primer día.

Saber más →

Uno de los riesgos de implementar controles de calidad es que el pipeline empiece a fallar con frecuencia y el equipo pierda confianza en el sistema o, peor, empiece a ignorar las alertas. Para evitarlo, conviene seguir estas prácticas:

1Clasifica cada control con una severidad clara: crítico (bloquea el pipeline), advertencia (alerta pero no bloquea) o informativo (se registra para análisis posterior).
2Empieza con pocos controles críticos y muchos de advertencia. A medida que entiendas los patrones normales de tus datos, puedes promover advertencias a críticos.
3Configura canales de notificación diferenciados: los fallos críticos van a un canal de alerta inmediata (Slack, PagerDuty); las advertencias van a un informe diario de resumen.
4Registra un historial de fallos de calidad. Con el tiempo, este registro te permite identificar las fuentes más problemáticas y priorizar dónde invertir en mejoras.
5Revisa los umbrales trimestralmente. Un check que generaba sentido cuando lo definiste puede volverse irrelevante o demasiado estricto a medida que cambia el negocio.

Herramientas complementarias a dbt para calidad de datos

Además de dbt Tests, Great Expectations y Soda Core mencionados anteriormente, hay otras herramientas y enfoques que conviene conocer según la madurez del equipo:

Herramientas de calidad de datos más allá de dbt Tests.
Herramienta	Enfoque principal	Mejor para
Elementary	Observabilidad de datos integrada en dbt	Equipos que ya usan dbt y quieren monitorización automática de anomalías sin añadir otra herramienta
Monte Carlo	Observabilidad de datos end-to-end	Empresas con múltiples pipelines y fuentes que necesitan visibilidad centralizada del estado de sus datos
dbt-expectations	Tests declarativos avanzados compatibles con dbt	Equipos que necesitan checks más sofisticados que los nativos de dbt sin salir del framework
SQL checks manuales	Queries de validación ejecutadas por el orquestador	Equipos con stacks simples que no usan dbt y prefieren control total sobre la lógica de validación

⚠️ Atención

No añadas herramientas de calidad de datos solo porque existen. Cada herramienta tiene un coste de mantenimiento. Empieza con lo mínimo necesario (dbt tests nativos o SQL checks) y añade capas solo cuando las limitaciones de lo que tienes sean un problema real, no teórico.

Para un enfoque completo de gobierno del dato adaptado a tu empresa, consulta nuestra página de gobierno del dato y calidad explicamos el proceso completo.

Si te interesa profundizar, en dbt para equipos que empiezan: guía práctica exploramos este tema en detalle.

Para más contexto, puedes consultar la informe de Gartner sobre datos listos para IA.

Preguntas frecuentes sobre calidad de datos en pipelines

¿Cuándo debo ejecutar los tests de calidad: antes o después de cargar los datos?

Lo ideal es ejecutarlos en múltiples puntos del pipeline: en la capa de staging (datos crudos de la fuente, antes de transformar), después de las transformaciones principales y antes de publicar en el mart o la capa de consumo. Detectar el problema lo antes posible en el pipeline reduce el impacto y facilita la corrección.

¿Qué pasa cuando un control de calidad falla en producción?

Depende de cómo hayas configurado el control: si es crítico, el pipeline falla y los datos de esa carga no se publican (el sistema sirve la versión anterior). Si es de alerta, el pipeline continúa pero se notifica al equipo. Tener este comportamiento bien definido antes de llegar a producción evita decisiones de emergencia cuando ocurre un fallo real.

¿Es necesario tener dbt para implementar calidad de datos?

No. Puedes implementar controles de calidad con Great Expectations, Soda o scripts SQL personalizados sobre cualquier warehouse sin usar dbt. dbt facilita mucho la integración porque los tests son código versionado junto a las transformaciones, pero no es un requisito.

Siguiente paso recomendado

Plataforma de datos

Calidad de datos automatizada integrada en el pipeline desde el primer día.

Ver Plataforma de datos Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil meridiandata.es/autores/david-aldomar

Fuentes

Contenido y servicios relacionados

Seguir leyendo

Calidad de datos en pipelines ETL/ELT en empresa

¿Qué tipos de controles de calidad necesita un pipeline?

dbt Tests: la forma más sencilla de empezar

Cómo priorizar qué controles implementar primero

Monitorización continua: Great Expectations y Soda

Arquitectura de controles: dónde colocar cada check en el pipeline

Capa de ingesta (staging)

Capa de transformación

Capa de consumo (mart)

Patrones de error más comunes en pipelines reales

Cómo gestionar los fallos de calidad sin paralizar al equipo

Herramientas complementarias a dbt para calidad de datos

Preguntas frecuentes sobre calidad de datos en pipelines

¿Cuándo debo ejecutar los tests de calidad: antes o después de cargar los datos?

¿Qué pasa cuando un control de calidad falla en producción?

¿Es necesario tener dbt para implementar calidad de datos?

Plataforma de datos

Contenido y servicios relacionados

Artículos relacionados

8 errores comunes al diseñar un pipeline de datos y cómo evitarlos

dbt para empresas: guía práctica para equipos que quieren empezar sin complicarse

Delta Lake: qué es, cuándo implementarlo y cómo encaja en tu arquitectura de datos

Cómo preparar tus datos para un proyecto de IA en la empresa

Linaje de datos: qué es, por qué importa y cómo implementarlo

Calidad de datos en pipelines ETL/ELT en empresa

¿Qué tipos de controles de calidad necesita un pipeline?

dbt Tests: la forma más sencilla de empezar

Cómo priorizar qué controles implementar primero

Monitorización continua: Great Expectations y Soda

Arquitectura de controles: dónde colocar cada check en el pipeline

Capa de ingesta (staging)

Capa de transformación

Capa de consumo (mart)

Patrones de error más comunes en pipelines reales

Cómo gestionar los fallos de calidad sin paralizar al equipo

Herramientas complementarias a dbt para calidad de datos

Preguntas frecuentes sobre calidad de datos en pipelines

¿Cuándo debo ejecutar los tests de calidad: antes o después de cargar los datos?

¿Qué pasa cuando un control de calidad falla en producción?

¿Es necesario tener dbt para implementar calidad de datos?

Plataforma de datos

Contenido y servicios relacionados

Artículos relacionados

8 errores comunes al diseñar un pipeline de datos y cómo evitarlos

dbt para empresas: guía práctica para equipos que quieren empezar sin complicarse

Delta Lake: qué es, cuándo implementarlo y cómo encaja en tu arquitectura de datos

Cómo preparar tus datos para un proyecto de IA en la empresa

Linaje de datos: qué es, por qué importa y cómo implementarlo