Políticas de Calidad de Datos — Guía Práctica

Q: ¿Cuánto cuesta implementar un sistema de calidad de datos?

Depende del alcance. Herramientas open source como Great Expectations o los tests nativos de dbt no tienen coste de licencia. El coste real es el tiempo de configuración: 3-8 semanas de trabajo de un ingeniero de datos para definir las reglas, implementarlas y conectarlas a los pipelines. Las herramientas comerciales (Collibra DQ, Informatica) añaden coste de licencia a partir de 50.000 €/año.

Q: ¿Quién debe definir las reglas de calidad de datos?

Las reglas de negocio las define el Data Owner (un perfil de negocio) y las implementa el Data Steward (un perfil técnico). Por ejemplo, el director comercial define qué es un cliente 'activo'; el data engineer implementa la validación que verifica ese criterio en cada pipeline.

Q: ¿Con qué dimensión de calidad debo empezar?

Empieza por la dimensión que más duele. Si tienes clientes duplicados, empieza por unicidad. Si los informes dan fechas incorrectas, empieza por exactitud. Si faltan campos obligatorios en el 30% de los registros, empieza por completitud. El punto de partida lo marca el dolor actual, no la teoría.

Q: ¿Qué diferencia hay entre calidad de datos y gobierno del dato?

La calidad de datos es un componente del gobierno del dato, no un sinónimo. El gobierno del dato abarca también la definición de significados, la gestión de accesos, el linaje y la trazabilidad. La calidad se centra en que los datos cumplan los estándares definidos: correctos, completos, únicos, actualizados.

Q: ¿Cómo sé si mis datos tienen mala calidad?

Las señales más comunes: informes que dan cifras distintas según quién los haga, clientes o productos duplicados en el CRM/ERP, campos obligatorios vacíos, fechas futuras en registros históricos, o valores fuera de rango (como edades de 150 años). Si cualquiera de estos ocurre regularmente, tienes un problema de calidad de datos.

David Aldomar

gobierno-del-dato calidad-datos datos estrategia

Políticas de Calidad de Datos — Guía Práctica

La calidad de los datos no se garantiza con buenas intenciones — se garantiza con reglas explícitas, propietarios claros y controles automáticos. Esta guía muestra cómo definir e implementar una política de calidad de datos en una empresa mediana.

David Aldomar18 de abril de 202612 min lectura

📌 En resumen

La calidad de datos se garantiza con reglas explícitas, propietarios claros y controles automáticos en los pipelines — no con revisiones manuales ni buenas intenciones. Esta guía cubre las 6 dimensiones de calidad, cómo definir reglas concretas y cómo implementarlas con herramientas como dbt y Great Expectations.

El 80% de los proyectos de analítica e IA fallan no por falta de algoritmos, sino porque los datos de partida tienen problemas de calidad que no se detectaron a tiempo. Valores duplicados, campos vacíos, fechas incoherentes, importes negativos donde no deben existir. Cuando estos problemas llegan al dashboard o al modelo, el resultado es desconfianza y, en el mejor caso, trabajo manual para corregirlos.

Las 6 dimensiones de calidad de datos

El marco más extendido para medir calidad de datos define seis dimensiones. No todas son igual de críticas en cada empresa o dominio, pero todas deben estar definidas explícitamente para poder medirlas.

Dimensión	Definición	Ejemplo de regla
Completitud	¿Están presentes todos los campos obligatorios?	El campo email del cliente no puede ser nulo
Exactitud	¿Los valores reflejan la realidad?	La fecha de nacimiento no puede ser posterior al año actual
Consistencia	¿Los datos son coherentes entre sistemas?	El cliente_id en CRM y ERP debe ser el mismo para el mismo cliente
Oportunidad	¿Los datos están actualizados en el momento en que se necesitan?	El stock se actualiza en menos de 2 horas tras cada movimiento
Unicidad	¿No hay duplicados?	No pueden existir dos registros con el mismo NIF de cliente
Validez	¿Los valores cumplen el formato y rango esperado?	El importe de una factura debe ser mayor que 0

Cómo definir una política de calidad de datos

Una política de calidad de datos es el documento que especifica qué estándares deben cumplir los datos de un dominio, quién es responsable de garantizarlos y qué ocurre cuando no se cumplen. No es un documento técnico: es un acuerdo entre negocio y tecnología.

Alcance: qué dominio de datos cubre la política (cliente, producto, proveedor...).
Propietario: quién es el Data Owner que valida y aprueba las reglas.
Dimensiones priorizadas: cuáles de las 6 dimensiones son críticas para este dominio.
Reglas concretas: mínimo 5-10 reglas explícitas por dominio, redactadas en lenguaje de negocio.
Umbrales de aceptación: qué % de registros inválidos es aceptable antes de activar una alerta.
Proceso de remediación: quién actúa cuando se detecta una incidencia y en qué plazo.
Revisión periódica: cada cuánto se revisa y actualiza la política.

Herramientas para implementar controles de calidad automáticos

Las políticas de calidad no son útiles si el control es manual. La verificación debe ocurrir automáticamente cada vez que los datos entran o se transforman en el sistema.

dbt Tests

Si tu pipeline de datos usa dbt (el estándar de facto para transformaciones SQL), puedes definir tests directamente en los archivos YAML de cada modelo. Los tests nativos cubren unicidad, no nulos, valores aceptados y relaciones referenciales. Para reglas más complejas, el paquete dbt-expectations añade validaciones de rango, formato y estadísticas.

Great Expectations

Great Expectations es una librería open source de Python que permite definir 'expectations' sobre los datos y validarlas en cualquier punto del pipeline: en la ingesta, después de transformaciones o antes de cargar en el data warehouse. Genera informes HTML de calidad que pueden publicarse como documentación de datos.

Herramientas comerciales

Para organizaciones con múltiples dominios y equipos distribuidos, herramientas como Collibra DQ, Informatica Data Quality o Talend Data Quality ofrecen interfaces visuales para definir reglas, dashboards de calidad y flujos de remediación. El coste de licencia suele partir de 30.000-50.000 €/año, lo que las hace adecuadas para empresas grandes o medianas con alta madurez de datos.

El proceso de remediación: qué hacer cuando los datos fallan

Definir reglas y detectar incidencias es solo la mitad del trabajo. La otra mitad es tener un proceso claro para remediar los problemas. Sin remediación, el control de calidad genera alertas que nadie gestiona.

Clasificar la incidencia: ¿es un error puntual, sistémico o en la fuente?
Asignar responsable: el Data Steward del dominio afectado recibe la alerta y la investiga.
Corregir en origen: si el error viene de un sistema fuente (ERP, CRM), se corrige allí — no en el data warehouse.
Documentar la causa: qué generó el error y qué cambio se hizo para evitar que se repita.
Validar la corrección: volver a ejecutar el test para confirmar que el dato cumple la regla.

ℹ️ Nota

Una práctica habitual es definir dos niveles de alerta: 'warning' (el dato no cumple la regla pero no bloquea el pipeline) y 'error' (el dato está tan degradado que el pipeline se detiene hasta que se resuelva). Los umbrales deben calibrarse con el Data Owner, no de forma arbitraria.

Siguiente paso recomendado

Gobierno del dato y calidad

Definimos políticas de calidad de datos, reglas de validación y procesos de remediación adaptados a tu empresa.

Ver Gobierno del dato y calidad Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil meridiandata.es/autores/david-aldomar

Fuentes

Contenido y servicios relacionados

Seguir leyendo

Políticas de Calidad de Datos — Guía Práctica

Las 6 dimensiones de calidad de datos

Cómo definir una política de calidad de datos

Herramientas para implementar controles de calidad automáticos

dbt Tests

Great Expectations

Herramientas comerciales

El proceso de remediación: qué hacer cuando los datos fallan

Gobierno del dato y calidad

Contenido y servicios relacionados

Artículos relacionados

Roles y responsabilidades en el gobierno del dato: quién hace qué en tu empresa

Catálogo de datos: qué es, para qué sirve y cuándo necesitas uno

Cómo implementar gobierno del dato paso a paso en tu empresa

Gobierno del dato en una pyme: qué es y por qué importa

Gobierno del dato en empresa: guia completa para implantarlo sin burocracia

Políticas de Calidad de Datos — Guía Práctica

Las 6 dimensiones de calidad de datos

Cómo definir una política de calidad de datos

Herramientas para implementar controles de calidad automáticos

dbt Tests

Great Expectations

Herramientas comerciales

El proceso de remediación: qué hacer cuando los datos fallan

Gobierno del dato y calidad

Contenido y servicios relacionados

Artículos relacionados

Roles y responsabilidades en el gobierno del dato: quién hace qué en tu empresa

Catálogo de datos: qué es, para qué sirve y cuándo necesitas uno

Cómo implementar gobierno del dato paso a paso en tu empresa

Gobierno del dato en una pyme: qué es y por qué importa

Gobierno del dato en empresa: guia completa para implantarlo sin burocracia