No necesitas un data lake el primer día. Cómo diseñar una arquitectura de datos por fases que crezca con tu empresa sin sobredimensionar ni quedarse corta.
📌 En resumen
La clave de una arquitectura de datos escalable es no sobredimensionar desde el primer día ni construir algo tan mínimo que haya que rehacerlo en meses. Un enfoque por etapas permite resolver la necesidad actual y crecer de forma controlada sin desperdiciar presupuesto. La primera etapa suele centrarse en conectar las fuentes principales y montar un reporting fiable. La segunda añade transformaciones más complejas y automatización. La tercera incorpora modelos analíticos o predictivos. Cada etapa debe funcionar de forma autónoma y aportar valor antes de pasar a la siguiente. Este enfoque incremental reduce el riesgo de inversión y permite ajustar la arquitectura conforme evolucionan las necesidades reales del negocio.
Una de las trampas más habituales en proyectos de datos es empezar construyendo la arquitectura que necesitarías dentro de 3 años. Un data lake con múltiples capas, un catálogo de datos completo, pipelines orquestados con herramientas enterprise y un equipo de 5 ingenieros para mantenerlo. Todo esto tiene sentido para una empresa con decenas de fuentes de datos y casos de uso maduros. Pero si tu empresa tiene 2 ERP, un CRM y la necesidad inmediata de automatizar el cierre mensual, estás sobredimensionando.
El enfoque opuesto también es un problema: construir algo tan mínimo que a los 6 meses hay que tirarlo y empezar de cero. La clave es diseñar una arquitectura que resuelva la necesidad actual pero que esté preparada para crecer sin rehacerse.
En la práctica, la mayoría de empresas medianas pasan por estas etapas de forma secuencial. El error es saltarse etapas o intentar construir la etapa 4 desde el primer día.
La primera necesidad suele ser consolidar datos de 2-3 sistemas (ERP, CRM, hojas de cálculo) en un único lugar desde el que generar informes fiables. La solución típica es un data mart o un data warehouse ligero con un modelo dimensional simple. Se conectan las fuentes con pipelines de ingesta básicos, se aplican las transformaciones necesarias y se construyen los dashboards.
Tecnología habitual en esta etapa: un SQL Server o PostgreSQL como almacén, dbt o scripts de transformación, Power BI o Looker para la visualización. El coste es contenido y el equipo existente puede aprender a mantenerlo.
Cuando el reporting funciona, aparecen nuevas necesidades: el equipo comercial quiere sus propios dashboards, operaciones necesita datos en tiempo real, alguien quiere cruzar datos de marketing digital con ventas. La arquitectura de la etapa 1 empieza a quedarse corta porque no está preparada para múltiples consumidores ni para fuentes adicionales.
En esta etapa se suele evolucionar hacia un data warehouse más robusto con separación clara entre capas (ingesta, transformación, consumo), un orquestador de pipelines y gobierno básico: quién es responsable de cada fuente, definiciones acordadas de KPIs, documentación del modelo.
Cuando la empresa quiere construir modelos predictivos (forecasting, churn, scoring), la arquitectura necesita soportar no solo consultas de reporting sino también entrenamiento de modelos, almacenamiento de features y versionado de datasets. Aquí es donde empieza a tener sentido un data lake o un lakehouse que combine almacenamiento estructurado y no estructurado.
Tecnología habitual: BigQuery, Snowflake o Databricks como plataforma central, un feature store para modelos de ML, pipelines de reentrenamiento automatizados.
Pocas pymes llegan a esta etapa, pero es el estado al que aspiran las empresas que consideran los datos como un activo estratégico. Aquí los datasets se tratan como productos internos con propietarios, SLAs de calidad, documentación y contratos de uso. Hay un equipo de datos dedicado, gobernanza formal y la capacidad de desplegar nuevos casos de uso de forma autónoma.
No hace falta un diagnóstico extenso. Estas preguntas te sitúan rápidamente:
⚠️ Atención
El error más caro es construir la infraestructura de la etapa 3 cuando tus necesidades reales son de etapa 1. Un data lake con Spark y Kafka para una empresa que necesita automatizar un cierre mensual es como comprar un camión para llevar a los niños al colegio: funciona, pero el coste y la complejidad no están justificados.
Si tu empresa está en la etapa 0 o 1 y quieres construir una base sólida sin sobredimensionar, el primer paso es un diagnóstico que identifique tus fuentes de datos, tus necesidades de reporting y la capacidad de tu equipo. A partir de ahí se diseña la arquitectura que necesitas ahora con la flexibilidad para crecer. En nuestra plataforma de datos seguimos este enfoque por etapas, y el servicio de consultoría estratégica incluye el diagnóstico de madurez que te dice en qué etapa estás y cuál es el siguiente paso lógico.
Siguiente paso recomendado
¿Listo para escalar tu arquitectura de datos? Diseñamos cada etapa para que crezca contigo.
Sin compromiso · Respuesta en < 24h
Autor
Fundador y Consultor de Datos e IA
David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.
Seguir leyendo
7 min lectura
10 min lectura
10 min lectura