Cómo empezar con dbt en una empresa: estructura de proyecto recomendada, tests declarativos, documentación automática y cómo integrarlo en CI/CD sin necesitar un equipo enorme.

📌 En resumen
dbt (data build tool) es la herramienta de transformación de datos más adoptada en 2026 para stacks de datos modernos. Permite escribir las transformaciones como modelos SQL versionados en Git, con tests declarativos de calidad integrados y documentación autogenerada del linaje de datos. La estructura de proyecto recomendada para empezar tiene tres capas: staging (limpieza y tipificación de datos crudos), intermediate (joins y transformaciones de negocio) y marts (tablas finales que consumen los dashboards y herramientas de análisis).
dbt ha pasado de ser una herramienta nicho en 2019 a ser prácticamente el estándar para la capa de transformación en stacks de datos modernos. Si tu empresa trabaja con Snowflake, BigQuery, Redshift, DuckDB o incluso Postgres, y el equipo escribe transformaciones en SQL, dbt es la herramienta que probablemente deberías estar usando.
| Capa | Prefijo | Qué contiene | Materialización |
|---|---|---|---|
| Staging | stg_ | Limpieza, renombrado, tipos correctos. 1 modelo por tabla de fuente. | View |
| Intermediate | int_ | Joins entre modelos de staging. Lógica de negocio. Sin lógica de reporting. | View o Table |
| Marts | fct_ / dim_ | Tablas de hechos y dimensiones listas para consumo en BI. | Table o Incremental |
| Seeds | — | Datos de referencia estáticos (catálogos, mapeos) en CSV. | Table |
Los tests en dbt son declaraciones sobre cómo deben ser los datos, escritas en YAML junto al modelo. Los cuatro tests nativos cubren los casos más frecuentes: not_null (el campo no puede ser nulo), unique (no puede haber duplicados), accepted_values (el campo solo puede tener ciertos valores), relationships (la clave foránea debe existir en otra tabla). Añadiendo dbt-expectations (que replica la sintaxis de Great Expectations en dbt) puedes testear rangos, proporciones, patrones regex y muchos más criterios sin salir del framework.
No todos los modelos necesitan el mismo nivel de testing. Una estrategia práctica es ajustar los tests a la capa del modelo:
| Capa | Tests recomendados | Motivo |
|---|---|---|
| Staging (stg_) | not_null en claves primarias, unique, tipos de datos correctos | Detectar problemas en las fuentes lo antes posible |
| Intermediate (int_) | Relationships entre modelos, accepted_values en campos de estado | Validar que los joins no generan duplicados ni valores inesperados |
| Marts (fct_/dim_) | Tests de negocio: rangos de valores, proporciones, consistencia entre métricas | Garantizar que lo que llega al dashboard tiene sentido de negocio |
El error más habitual es no poner tests en staging y confiar en que los datos de origen siempre llegan bien. En la práctica, las fuentes cambian sin aviso: un campo que antes nunca era nulo empieza a serlo, un sistema cambia el formato de fecha o un proceso de carga empieza a duplicar registros. Los tests en staging son la primera línea de defensa.
ℹ️ Nota
Una regla práctica que funciona bien: cada modelo de staging debe tener al menos un test de not_null y unique en su clave primaria. Cada modelo de marts debe tener al menos un test de negocio que valide que las cifras están en rangos razonables. Si empiezas por ahí, ya cubres la mayoría de los problemas graves.
El paquete dbt-expectations amplía enormemente la capacidad de testing sin necesidad de escribir macros custom. Algunos de los tests más útiles en contexto empresarial:
Después de ver varios equipos adoptar dbt, hay patrones de error que se repiten con frecuencia:
Una de las mayores ventajas de dbt es que convierte la calidad de datos en parte del pipeline, no en un proceso separado. Cada vez que se ejecutan las transformaciones, los tests validan que los resultados cumplen las expectativas. Si un test falla, el pipeline se detiene antes de que los datos incorrectos lleguen al dashboard. Este enfoque se alinea con lo que en gobierno del dato y calidad llamamos calidad integrada: no auditas después, sino que validas durante.
En la práctica, esto significa que un equipo con dbt bien configurado puede garantizar a negocio que los dashboards muestran datos que han pasado validaciones explícitas. No es una garantía absoluta (ninguna herramienta lo es), pero es un salto cualitativo respecto a transformaciones SQL sueltas sin ningún control.
Siguiente paso
Plataforma de datos
Implementamos dbt como capa de transformación documentada y versionada.
Saber más →dbt es excelente para transformación de datos en SQL dentro de un warehouse. Pero no cubre todo el pipeline:
Si necesitas diseñar un stack de datos completo donde dbt sea la capa de transformación, nuestro servicio de plataforma de datos parte del diagnóstico de tu situación actual para recomendarte las piezas que encajan, no solo dbt sino todo lo que lo rodea.
Para mas contexto, puedes consultar la documentacion oficial de dbt.
No para el día a día. dbt usa SQL para las transformaciones. Python es necesario para instalarlo (pip install dbt-core) y para crear nodos de código Python si los necesitas, pero el 95% del trabajo en dbt es SQL y YAML.
Para equipos pequeños (1–3 personas), dbt Core con scheduling en Airflow, Dagster o incluso cron es suficiente. dbt Cloud añade una interfaz web cómoda, CI/CD integrado, linaje visual y gestión de entornos, lo que lo hace más conveniente para equipos medianos o para organizaciones que no quieren gestionar la infraestructura de orquestación.
Los adapters oficialmente soportados incluyen Snowflake, BigQuery, Redshift, Databricks, Postgres, DuckDB, Azure Synapse, SQL Server y varios más. Para la mayoría de stacks de empresa mediana en España (Postgres, BigQuery, Snowflake), el soporte es completo y maduro.
Si el equipo ya escribe SQL con soltura, la curva de aprendizaje de dbt es de 1-2 semanas para lo básico (crear modelos, ejecutar tests, entender el flujo). Dominar las buenas prácticas (materialización incremental, macros, paquetes, CI/CD) lleva algo más, típicamente 1-2 meses de uso real. Lo más importante no es la herramienta en sí, sino adoptar la disciplina de versionado, testing y documentación que dbt facilita.
Sí, especialmente si ese analista escribe transformaciones SQL que otros consumen en dashboards. dbt aporta versionado (puedes revertir cambios), tests (sabes si algo se rompe antes de que lo vea el director financiero) y documentación (cuando esa persona se vaya de vacaciones o cambie de puesto, alguien puede entender qué hace cada transformación). El coste de adopción para una persona es bajo y el beneficio a medio plazo es alto.
Siguiente paso recomendado
Implementamos dbt como capa de transformación documentada y versionada.
Sin compromiso · Respuesta en < 24h
Autor
Fundador y Consultor de Datos e IA
David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.
Fuentes
Cómo construimos la arquitectura de datos donde dbt encaja como capa de transformación.
La comparativa completa entre el enfoque ELT con dbt y las herramientas ETL clásicas.
Cómo integrar controles de calidad en el pipeline donde dbt actúa como capa de transformación.
Visión general de dbt y cómo encaja en la capa de transformación de una plataforma de datos moderna.
Criterios de decisión entre warehouse, lake y lakehouse con rangos de coste orientativos.
Guía de arquitectura de datos para empresas 2026: data warehouse, data lake, lakehouse y herramientas clave (dbt,...
Seguir leyendo
14 min lectura
14 min lectura
9 min lectura
10 min lectura
9 min lectura
Última revisión: