Catálogo de Datos: cómo implementarlo paso a paso

Q: ¿Cuál es la diferencia entre catálogo de datos y diccionario de datos?

El diccionario de datos es una lista técnica de tablas, columnas y tipos de datos — documentación de la estructura. El catálogo de datos va más allá: añade el glosario de negocio (qué significa 'cliente activo' para el equipo comercial), el linaje (de dónde viene cada dato), la propiedad (quién es el Data Owner) y métricas de calidad. El diccionario responde '¿qué existe?'; el catálogo responde '¿qué significa, de dónde viene y quién lo gestiona?'

Q: ¿Cuándo necesita una empresa un catálogo de datos?

Cuando hay más de 3-4 equipos consumiendo datos de distintos sistemas y empiezan los conflictos sobre definiciones ('mi dato de ventas no cuadra con el tuyo'). También cuando se incorporan nuevos analistas y tardan semanas en entender qué datos existen y cómo usarlos. Y cuando la regulación exige trazabilidad de los datos (RGPD, AI Act, normativa sectorial).

Q: ¿Es mejor un catálogo open source o uno comercial?

Para empresas medianas que empiezan, DataHub o Amundsen (ambos open source y mantenidos por LinkedIn y Lyft respectivamente) son excelentes puntos de partida: cero coste de licencia, buena integración con herramientas modernas de datos y comunidad activa. Las opciones comerciales (Collibra, Alation) aportan interfaces más amigables para perfiles de negocio y soporte, pero a un coste significativo (50.000-200.000 €/año). Empieza con open source y evalúa el salto a comercial cuando el volumen lo justifique.

Q: ¿Cuánto tiempo lleva implementar un catálogo de datos?

Un catálogo básico con conexión a las fuentes principales y un glosario de negocio mínimo (20-30 términos) puede estar operativo en 4-8 semanas. Un catálogo completo con linaje automatizado, perfiles de calidad y workflows de aprobación de definiciones lleva 3-6 meses. La adopción organizativa (que los analistas lo usen de verdad) es el desafío más largo.

Q: ¿Quién mantiene el catálogo de datos?

La parte técnica (conexiones, ingesta de metadatos, linaje) la mantiene el equipo de datos. La parte de negocio (definiciones del glosario, ownership, validación de términos) la mantienen los Data Stewards de cada dominio, con supervisión del Data Owner. Sin ownership claro, el catálogo se desactualiza rápidamente.

David Aldomar

📌 En resumen

Un catálogo de datos resuelve el problema más habitual en empresas con múltiples sistemas: nadie sabe qué datos existen, qué significan realmente ni quién es responsable de ellos. Esta guía explica cuándo lo necesitas, la diferencia entre catálogo y diccionario de datos, las principales opciones de herramientas y cómo implementarlo en fases.

En una empresa con 4 o más sistemas generando datos, la situación habitual es la siguiente: cuando un analista necesita un dato, pregunta a un compañero que sabe en qué tabla está. Cuando el compañero no está disponible, el proceso se detiene. Cuando la definición del dato no es clara, cada departamento usa la suya. Esto no es un problema de herramientas — es un problema de conocimiento no documentado.

El catálogo de datos es la respuesta técnica y organizativa a este problema. Es el lugar donde los datos son encontrables, su significado está documentado y su propietario está identificado. Sin catálogo, el conocimiento sobre los datos vive en la cabeza de las personas que los crearon — y se pierde cuando esas personas se van.

Catálogo de datos vs diccionario de datos: la diferencia clave

El diccionario de datos es un inventario técnico: lista de tablas, columnas, tipos de datos y restricciones. Es útil para los ingenieros de datos, pero no para los analistas de negocio que necesitan saber qué significa 'cliente_estado = 2' o cómo se calcula el margen bruto en el ERP.

El catálogo de datos añade cuatro capas sobre el diccionario: el glosario de negocio (significados en lenguaje de negocio), el linaje (de dónde viene cada dato y a dónde va), la propiedad (quién es el Data Owner), y las métricas de calidad (si el dato es fiable). Es el puente entre el mundo técnico y el negocio.

¿Cuándo necesita tu empresa un catálogo de datos?

Los analistas tardan más de una semana en familiarizarse con las fuentes de datos cuando se incorporan.
Los informes de distintos departamentos dan cifras distintas para el mismo KPI porque usan definiciones diferentes.
Nadie sabe con certeza de qué tabla del ERP viene el importe de ventas que aparece en el dashboard.
Cuando alguien deja la empresa, se pierde el conocimiento sobre qué datos existen y cómo se usan.
El regulador o auditor pide trazabilidad de un dato y no se puede demostrar de dónde viene.

Comparativa de herramientas de catálogo de datos

Herramienta	Tipo	Ideal para	Coste orientativo
DataHub (Acryl)	Open source	Equipos técnicos, stacks modernos (dbt, Airflow, Spark)	Gratuito (hosting propio) / SaaS desde ~30k€/año
Apache Atlas	Open source	Ecosistemas Hadoop/Hive maduros	Gratuito (requiere operación)
Amundsen (Lyft)	Open source	Empresas con Python y cultura data-driven	Gratuito (hosting propio)
Collibra	Comercial	Grandes empresas, perfiles de negocio, compliance	Desde ~80.000 €/año
Alation	Comercial	Empresas con analistas SQL, colaboración activa	Desde ~50.000 €/año
Microsoft Purview	Comercial	Ecosistemas Azure, integración con Power BI	Desde ~15.000 €/año (según datos escaneados)

¿Cuáles son las fases de implementación de un catálogo de datos?

Fase 1 — Inventario técnico (semanas 1-4)

Conectar el catálogo a las fuentes de datos principales (data warehouse, dbt, herramientas de BI) para extraer automáticamente los metadatos técnicos: tablas, columnas, tipos de datos, estadísticas de uso. Esto requiere trabajo de ingeniería de datos, no de negocio.

Fase 2 — Glosario de negocio (semanas 5-12)

Trabajar con los Data Owners de cada dominio para documentar las definiciones de negocio de los datos más usados. Priorizar los términos que más conflictos generan: ¿qué es un cliente activo? ¿cómo se calcula el ticket medio? Cada definición debe tener su autor, su fecha de aprobación y estar vinculada a los campos técnicos que la implementan.

Fase 3 — Linaje y calidad (meses 3-6)

Conectar el linaje automático desde las herramientas de transformación (dbt exporta linaje nativo al catálogo) y añadir métricas de calidad visibles desde el catálogo. Cuando un analista abre una tabla, debe poder ver su estado de calidad actual y la ruta que ha seguido el dato desde la fuente.

💡 Consejo

El mayor error en implementaciones de catálogo es centrarse en la tecnología antes que en los usuarios. Pregunta a 5 analistas cuáles son las 3 preguntas que más les cuesta responder sobre los datos. Las respuestas definen tu catálogo mínimo viable — no el inventario completo de tablas.

¿Cuánto cuesta un catálogo de datos en una empresa mediana?

El coste del software es solo una parte. El cálculo realista suma licencia o infraestructura, implantación inicial y mantenimiento anual del propio catálogo. En una empresa mediana española (entre 50 y 500 empleados, con un equipo de datos de 2-5 personas), los rangos orientativos en el primer año son los siguientes.

Concepto	Open source autogestionado	SaaS open source (Acryl, Stemma)	Comercial (Collibra, Alation)
Licencia o suscripción anual	0 €	20-40 K€	50-150 K€
Infraestructura (hosting + base de metadatos)	5-15 K€/año	Incluido	Incluido
Implantación inicial (interna o partner)	20-40 K€	15-30 K€	40-90 K€
Mantenimiento anual (FTE parcial)	0,2-0,4 FTE	0,1-0,2 FTE	0,1-0,3 FTE
Coste total año 1 (orientativo)	30-60 K€	40-75 K€	100-250 K€

ℹ️ Nota

El coste oculto del catálogo es el tiempo del Data Owner y los Data Stewards. Mantener un glosario de 100 términos requiere unas 2-4 horas semanales repartidas entre los responsables de cada dominio. Si no se reserva esa capacidad, el catálogo se queda en el inventario técnico y el negocio nunca lo adopta.

¿Qué KPIs miden el éxito de un catálogo?

Un catálogo desplegado pero no usado es indistinguible de no tenerlo. Por eso los KPIs útiles no miden cuántas tablas están catalogadas, sino cuánto valor está generando el catálogo en el día a día. Estos son los indicadores que conviene revisar mensualmente.

Cobertura del glosario de negocio: % de términos críticos definidos y validados por el Data Owner.
Adopción activa: usuarios únicos que consultan el catálogo cada semana sobre el total de potenciales (analistas + negocio).
Tiempo a la primera respuesta: cuánto tarda un analista nuevo en encontrar una tabla y entender qué significa.
Reducción de tickets de preguntas sobre datos enviados al equipo de BI o data engineering.
Frescura del metadato: porcentaje de assets con metadatos actualizados en los últimos 90 días.
Calidad de la documentación: porcentaje de tablas con descripción, propietario y al menos un caso de uso vinculado.

¿Qué errores evitar al adoptar un catálogo de datos?

La mayoría de proyectos de catálogo no fracasan por la herramienta. Fracasan en la fase de adopción, cuando el equipo técnico ya ha hecho el despliegue y nadie del negocio entra a usarlo. Estos son los patrones que más se repiten en empresas medianas.

1Catalogar todo desde el inicio en lugar de empezar por los dominios que más conflictos generan.
2Construir el glosario sin Data Owner identificado: las definiciones quedan ambiguas y nadie las defiende cuando hay desacuerdo.
3No conectar el catálogo con el flujo real del analista: si no aparece desde Power BI, dbt o el editor SQL, no se consulta.
4Tratarlo como proyecto puntual en vez de producto interno con roadmap y propietario a medio plazo.
5Confundir métricas vanidad (número de tablas indexadas) con métricas de uso real (búsquedas, consultas resueltas).
6Saltarse la fase de formación de los usuarios de negocio: el catálogo se queda en feudo del equipo de datos.

⚠️ Atención

Si tras seis meses de catálogo activo menos del 30 % de tus analistas lo consulta semanalmente, no es un problema de herramienta. Es un problema de utilidad percibida: el catálogo no responde sus preguntas reales. Vuelve a entrevistar a cinco usuarios antes de seguir cargando metadatos.

Siguiente paso recomendado

Gobierno del dato y calidad

Implementamos catálogo de datos con linaje, glosario de negocio y ownership para que vuestros datos sean encontrables y fiables.

Ver Gobierno del dato y calidad Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Preguntas frecuentes

¿Cuál es la diferencia entre catálogo de datos y diccionario de datos?

El diccionario de datos es una lista técnica de tablas, columnas y tipos de datos — documentación de la estructura. El catálogo de datos va más allá: añade el glosario de negocio (qué significa 'cliente activo' para el equipo comercial), el linaje (de dónde viene cada dato), la propiedad (quién es el Data Owner) y métricas de calidad. El diccionario responde '¿qué existe?'; el catálogo responde '¿qué significa, de dónde viene y quién lo gestiona?'

¿Cuándo necesita una empresa un catálogo de datos?

Cuando hay más de 3-4 equipos consumiendo datos de distintos sistemas y empiezan los conflictos sobre definiciones ('mi dato de ventas no cuadra con el tuyo'). También cuando se incorporan nuevos analistas y tardan semanas en entender qué datos existen y cómo usarlos. Y cuando la regulación exige trazabilidad de los datos (RGPD, AI Act, normativa sectorial).

¿Es mejor un catálogo open source o uno comercial?

Para empresas medianas que empiezan, DataHub o Amundsen (ambos open source y mantenidos por LinkedIn y Lyft respectivamente) son excelentes puntos de partida: cero coste de licencia, buena integración con herramientas modernas de datos y comunidad activa. Las opciones comerciales (Collibra, Alation) aportan interfaces más amigables para perfiles de negocio y soporte, pero a un coste significativo (50.000-200.000 €/año). Empieza con open source y evalúa el salto a comercial cuando el volumen lo justifique.

¿Cuánto tiempo lleva implementar un catálogo de datos?

Un catálogo básico con conexión a las fuentes principales y un glosario de negocio mínimo (20-30 términos) puede estar operativo en 4-8 semanas. Un catálogo completo con linaje automatizado, perfiles de calidad y workflows de aprobación de definiciones lleva 3-6 meses. La adopción organizativa (que los analistas lo usen de verdad) es el desafío más largo.

¿Quién mantiene el catálogo de datos?

La parte técnica (conexiones, ingesta de metadatos, linaje) la mantiene el equipo de datos. La parte de negocio (definiciones del glosario, ownership, validación de términos) la mantienen los Data Stewards de cada dominio, con supervisión del Data Owner. Sin ownership claro, el catálogo se desactualiza rápidamente.

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil meridiandata.es/autores/david-aldomar

Fuentes

Catálogo de Datos: cómo implementarlo paso a paso

Catálogo de datos vs diccionario de datos: la diferencia clave

¿Cuándo necesita tu empresa un catálogo de datos?

Comparativa de herramientas de catálogo de datos

¿Cuáles son las fases de implementación de un catálogo de datos?

Fase 1 — Inventario técnico (semanas 1-4)

Fase 2 — Glosario de negocio (semanas 5-12)

Fase 3 — Linaje y calidad (meses 3-6)

¿Cuánto cuesta un catálogo de datos en una empresa mediana?

¿Qué KPIs miden el éxito de un catálogo?

¿Qué errores evitar al adoptar un catálogo de datos?

Gobierno del dato y calidad

Preguntas frecuentes

Contenido y servicios relacionados

Artículos relacionados

Qué son los metadatos: definición, tipos y ejemplos para empresas

Linaje de datos: qué es, por qué importa y cómo implementarlo

Políticas de calidad de datos para empresas: cómo definirlas, implementarlas y mantenerlas

Product MDM en manufacturing: gobernar el maestro de materiales y BOM

Master Data Management (MDM): guía completa para empresas

Catálogo de Datos: cómo implementarlo paso a paso

Catálogo de datos vs diccionario de datos: la diferencia clave

¿Cuándo necesita tu empresa un catálogo de datos?

Comparativa de herramientas de catálogo de datos

¿Cuáles son las fases de implementación de un catálogo de datos?

Fase 1 — Inventario técnico (semanas 1-4)

Fase 2 — Glosario de negocio (semanas 5-12)

Fase 3 — Linaje y calidad (meses 3-6)

¿Cuánto cuesta un catálogo de datos en una empresa mediana?

¿Qué KPIs miden el éxito de un catálogo?

¿Qué errores evitar al adoptar un catálogo de datos?

Gobierno del dato y calidad

Preguntas frecuentes

Contenido y servicios relacionados

Artículos relacionados

Qué son los metadatos: definición, tipos y ejemplos para empresas

Linaje de datos: qué es, por qué importa y cómo implementarlo

Políticas de calidad de datos para empresas: cómo definirlas, implementarlas y mantenerlas

Product MDM en manufacturing: gobernar el maestro de materiales y BOM

Master Data Management (MDM): guía completa para empresas