La calidad de los datos no se garantiza con buenas intenciones — se garantiza con reglas explícitas, propietarios claros y controles automáticos. Esta guía muestra cómo definir e implementar una política de calidad de datos en una empresa mediana.
📌 En resumen
La calidad de datos se garantiza con reglas explícitas, propietarios claros y controles automáticos en los pipelines — no con revisiones manuales ni buenas intenciones. Esta guía cubre las 6 dimensiones de calidad, cómo definir reglas concretas y cómo implementarlas con herramientas como dbt y Great Expectations.
El 80% de los proyectos de analítica e IA fallan no por falta de algoritmos, sino porque los datos de partida tienen problemas de calidad que no se detectaron a tiempo. Valores duplicados, campos vacíos, fechas incoherentes, importes negativos donde no deben existir. Cuando estos problemas llegan al dashboard o al modelo, el resultado es desconfianza y, en el mejor caso, trabajo manual para corregirlos.
El marco más extendido para medir calidad de datos define seis dimensiones. No todas son igual de críticas en cada empresa o dominio, pero todas deben estar definidas explícitamente para poder medirlas.
| Dimensión | Definición | Ejemplo de regla |
|---|---|---|
| Completitud | ¿Están presentes todos los campos obligatorios? | El campo email del cliente no puede ser nulo |
| Exactitud | ¿Los valores reflejan la realidad? | La fecha de nacimiento no puede ser posterior al año actual |
| Consistencia | ¿Los datos son coherentes entre sistemas? | El cliente_id en CRM y ERP debe ser el mismo para el mismo cliente |
| Oportunidad | ¿Los datos están actualizados en el momento en que se necesitan? | El stock se actualiza en menos de 2 horas tras cada movimiento |
| Unicidad | ¿No hay duplicados? | No pueden existir dos registros con el mismo NIF de cliente |
| Validez | ¿Los valores cumplen el formato y rango esperado? | El importe de una factura debe ser mayor que 0 |
Una política de calidad de datos es el documento que especifica qué estándares deben cumplir los datos de un dominio, quién es responsable de garantizarlos y qué ocurre cuando no se cumplen. No es un documento técnico: es un acuerdo entre negocio y tecnología.
Las políticas de calidad no son útiles si el control es manual. La verificación debe ocurrir automáticamente cada vez que los datos entran o se transforman en el sistema.
Si tu pipeline de datos usa dbt (el estándar de facto para transformaciones SQL), puedes definir tests directamente en los archivos YAML de cada modelo. Los tests nativos cubren unicidad, no nulos, valores aceptados y relaciones referenciales. Para reglas más complejas, el paquete dbt-expectations añade validaciones de rango, formato y estadísticas.
Great Expectations es una librería open source de Python que permite definir 'expectations' sobre los datos y validarlas en cualquier punto del pipeline: en la ingesta, después de transformaciones o antes de cargar en el data warehouse. Genera informes HTML de calidad que pueden publicarse como documentación de datos.
Para organizaciones con múltiples dominios y equipos distribuidos, herramientas como Collibra DQ, Informatica Data Quality o Talend Data Quality ofrecen interfaces visuales para definir reglas, dashboards de calidad y flujos de remediación. El coste de licencia suele partir de 30.000-50.000 €/año, lo que las hace adecuadas para empresas grandes o medianas con alta madurez de datos.
Definir reglas y detectar incidencias es solo la mitad del trabajo. La otra mitad es tener un proceso claro para remediar los problemas. Sin remediación, el control de calidad genera alertas que nadie gestiona.
ℹ️ Nota
Una práctica habitual es definir dos niveles de alerta: 'warning' (el dato no cumple la regla pero no bloquea el pipeline) y 'error' (el dato está tan degradado que el pipeline se detiene hasta que se resuelva). Los umbrales deben calibrarse con el Data Owner, no de forma arbitraria.
Siguiente paso recomendado
Definimos políticas de calidad de datos, reglas de validación y procesos de remediación adaptados a tu empresa.
Sin compromiso · Respuesta en < 24h
Autor
Fundador y Consultor de Datos e IA
David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.
Fuentes
Servicio de diseño e implantación de políticas de calidad de datos y catálogo.
CDO, Data Owner y Data Steward: quién hace qué en el gobierno del dato.
Qué es el gobierno del dato y cómo implantarlo paso a paso.
Cuándo necesitas un catálogo de datos y cómo implementarlo.
Seguir leyendo
11 min lectura
10 min lectura
11 min lectura
10 min lectura
18 min lectura
Última revisión: