Cómo preparar tus datos para un proyecto de IA

Q: ¿Cuántos datos necesito para empezar un proyecto de IA?

Depende del tipo de modelo. Para análisis predictivo con modelos tabulares, unos pocos miles de registros pueden ser suficientes si la calidad es buena. Para entrenar modelos de lenguaje propios, se necesitan volúmenes mucho mayores. Para usar modelos preentrenados (GPT, Claude) con datos de empresa, lo importante no es el volumen sino la estructura y la accesibilidad del dato.

Q: ¿Puedo hacer IA con datos en Excel?

Sí, como punto de partida. Muchos proyectos de IA empiezan con datos exportados de Excel o CSV. El problema aparece cuando necesitas automatizar el flujo: entonces conviene tener los datos en una base de datos o un data warehouse con pipelines de actualización.

Q: ¿Qué porcentaje de completitud es aceptable para empezar?

No hay una cifra universal, pero como referencia práctica: si los campos clave para el modelo tienen menos del 70 % de completitud, conviene invertir en limpieza antes de empezar. Por encima del 85 %, la mayoría de modelos pueden trabajar con técnicas de imputación para los datos faltantes.

Q: ¿Cuánto tiempo lleva preparar los datos para un proyecto de IA?

Es la parte que más tiempo consume. Según diferentes estudios del sector, la preparación de datos supone entre el 60 % y el 80 % del tiempo total de un proyecto de IA. Un diagnóstico inicial de datos bien hecho puede reducir ese porcentaje significativamente al identificar los problemas antes de empezar.

Q: ¿Necesito un equipo de data engineering para preparar datos para IA?

Para proyectos puntuales con datos limitados, un perfil analítico con experiencia en limpieza de datos puede ser suficiente. Para proyectos recurrentes o que manejan múltiples fuentes, un equipo o partner de data engineering marca la diferencia en la fiabilidad y escalabilidad del resultado.

David Aldomar

IA calidad-datos datos estrategia diagnóstico

Cómo preparar tus datos para un proyecto de IA

Evaluación de madurez de datos para IA, dimensiones de calidad (completitud, exactitud, consistencia, frescura), pasos de preparación, bloqueantes frecuentes y criterios para decidir cuándo los datos son suficientes.

David Aldomar17 de abril de 202614 min lectura

📌 En resumen

La mayoría de los proyectos de IA que fracasan no fallan por el modelo, sino por los datos. Este artículo explica cómo evaluar si tus datos están preparados para un proyecto de inteligencia artificial, qué dimensiones de calidad medir (completitud, exactitud, consistencia, frescura), los pasos concretos de preparación, los bloqueantes más habituales y los criterios para decidir cuándo tus datos son suficientes para arrancar.

Cuando una empresa decide lanzar un proyecto de IA, el primer impulso es elegir el modelo, la herramienta o el proveedor. Pero la realidad es que la IA es tan buena como los datos que la alimentan. Si los datos son incompletos, inconsistentes o están dispersos en sistemas que no se hablan entre sí, el proyecto se atasca antes de producir ningún resultado útil.

Según Gartner, los problemas de calidad de datos son el principal motivo de fracaso en proyectos de IA y analytics. No se trata de tener datos perfectos (eso no existe), sino de tener datos suficientemente buenos para el caso de uso concreto que quieres resolver. Este artículo explica cómo evaluarlo y cómo prepararte.

Evaluación de madurez de datos: por dónde empezar

Antes de invertir en ningún modelo de IA, necesitas un diagnóstico honesto del estado de tus datos. No se trata de una auditoría exhaustiva de toda la empresa, sino de evaluar los datos que necesitas para el caso de uso específico que tienes en mente.

Un data readiness assessment básico responde a estas preguntas.

¿Dónde están los datos que necesitas? ¿En un sistema, en varios, en Excel, en correos?
¿Están accesibles por API, por consulta directa a base de datos o solo mediante exportación manual?
¿Cuántos registros hay? ¿Cubren el periodo temporal que el modelo necesita?
¿Quién es el propietario de cada fuente de datos? ¿Hay alguien que pueda explicar qué significa cada campo?
¿Los datos tienen campos identificativos comunes que permitan cruzarlos entre fuentes (ID de cliente, referencia de pedido, NIF)?

Este diagnóstico se puede hacer en 1-2 semanas y ahorra meses de trabajo en fases posteriores. Si no sabes responder a la mitad de estas preguntas, la prioridad no es la IA: es poner orden en tus datos.

Las cuatro dimensiones de calidad del dato para IA

No basta con tener datos. Necesitas datos de calidad suficiente para que el modelo de IA produzca resultados fiables. Hay cuatro dimensiones fundamentales que conviene medir. Si quieres profundizar en cómo integrar estos controles en tu infraestructura, puedes consultar nuestro servicio de gobierno del dato y calidad.

1. Completitud

Mide el porcentaje de campos que tienen valor frente a los que deberían tenerlo. Un dataset con un 40 % de valores nulos en la columna de ingresos no es útil para un modelo de predicción de ventas.

La completitud se evalúa a nivel de campo, de registro y de dataset. Un registro puede tener el nombre del cliente pero no su sector, y eso puede o no ser relevante según lo que necesite el modelo.

Calcula el porcentaje de nulos por cada campo relevante para el modelo.
Identifica si los nulos son aleatorios o sistemáticos (por ejemplo, un campo que nunca se rellena en un determinado sistema).
Decide si los campos con baja completitud se pueden imputar, se pueden excluir o necesitan recogerse de otra fuente.

2. Exactitud

Mide si los valores almacenados reflejan la realidad. Un campo de email que contiene "test@test.com" en el 15 % de los registros no es un dato exacto. Un campo de fecha de nacimiento con valores en el futuro tampoco.

La exactitud es más difícil de medir que la completitud porque requiere una fuente de verdad contra la que comparar. En la práctica, se aborda con reglas de validación.

Define reglas de negocio para cada campo: rango de valores aceptable, formato esperado, coherencia con otros campos.
Ejecuta validaciones automáticas y mide el porcentaje de registros que las incumplen.
Prioriza los campos que el modelo usa como variables predictoras: su exactitud impacta directamente en la calidad del resultado.

3. Consistencia

Mide si el mismo dato tiene el mismo valor en todos los sistemas donde aparece. Si el CRM dice que un cliente es del sector "Retail" y el ERP dice "Comercio minorista", tienes un problema de consistencia que hará que cualquier análisis cruzado falle.

Mapea los campos que se repiten en varias fuentes y compara valores.
Identifica diferencias en nomenclatura, formatos de fecha, unidades de medida o codificaciones.
Define una fuente maestra para cada dato y establece reglas de reconciliación.

4. Frescura (timeliness)

Mide si los datos están actualizados para el uso que les vas a dar. Un modelo de predicción de demanda que trabaja con datos de ventas de hace seis meses no va a capturar tendencias recientes.

¿Con qué frecuencia se actualizan los datos en el sistema origen?
¿Cuánto tiempo pasa desde que se genera el dato hasta que está disponible para análisis?
¿El modelo necesita datos en tiempo real, diarios, semanales o mensuales?

Las cuatro dimensiones de calidad del dato y cómo evaluarlas.
Dimensión	Qué mide	Cómo evaluar	Umbral orientativo
Completitud	Campos con valor vs. campos esperados	% de nulos por campo clave	> 85 % para campos críticos
Exactitud	Valores correctos vs. valores almacenados	Reglas de validación, comparación con fuente maestra	> 95 % de registros válidos
Consistencia	Mismo dato, mismo valor en todas las fuentes	Cruce entre sistemas, detección de duplicados	< 5 % de discrepancias
Frescura	Datos actualizados para el caso de uso	Latencia entre generación y disponibilidad	Depende del caso de uso

Pasos concretos para preparar tus datos

Una vez que tienes el diagnóstico, toca actuar. Estos son los pasos que seguimos en los proyectos de preparación de datos para IA.

Paso 1: Inventario de fuentes y datos disponibles

Documenta todas las fuentes de datos relevantes para el caso de uso: nombre del sistema, tipo de dato, volumen, formato, propietario, método de acceso (API, base de datos, fichero). Este inventario es la base de todo lo que viene después.

Paso 2: Perfilado de datos (data profiling)

Ejecuta un análisis exploratorio de cada fuente: distribución de valores, tipos de dato reales (no solo los declarados), porcentaje de nulos, duplicados, outliers y patrones anómalos. Herramientas como Great Expectations, dbt tests o incluso scripts de Python con pandas cubren esta fase.

Paso 3: Limpieza y normalización

Corrige los problemas detectados: elimina duplicados, normaliza formatos (fechas, códigos postales, nombres), imputa valores nulos cuando sea posible con lógica de negocio (no con promedios arbitrarios), y excluye registros que no aportan valor.

⚠️ Atención

No imputes datos a ciegas. Un valor nulo puede ser información en sí mismo (por ejemplo, un campo vacío de fecha de baja indica que el cliente sigue activo). Antes de rellenar o eliminar, entiende por qué falta el dato.

Paso 4: Integración y modelado

Cruza las fuentes necesarias para construir el dataset que el modelo de IA va a consumir. Define las claves de cruce, resuelve conflictos entre fuentes y construye un modelo de datos que sea coherente y mantenible. Si vas a trabajar con múltiples fuentes, una plataforma de datos facilita este paso enormemente al centralizar la ingesta y la transformación.

Paso 5: Validación con el equipo de negocio

Antes de alimentar ningún modelo, valida con las personas que conocen los datos. ¿Los números cuadran con lo que esperan? ¿Hay patrones que no tienen sentido? ¿Los campos significan lo que crees que significan? Este paso parece básico, pero se salta con frecuencia y es una de las principales causas de resultados erróneos.

Siguiente paso

Plataforma de datos

Te ayudamos a diseñar e implementar la infraestructura de datos que necesitas para que tus proyectos de IA funcionen sobre una base fiable.

Saber más →

Paso 6: Documentación y linaje

Documenta qué datos has usado, de dónde vienen, qué transformaciones has aplicado y qué decisiones has tomado (por ejemplo, cómo has tratado los nulos). Esta documentación es imprescindible para reproducir resultados, para auditorías y para que otros equipos puedan trabajar con los mismos datos.

Bloqueantes habituales: por qué los proyectos de datos se atascan

Conocer los bloqueantes más comunes ayuda a anticiparlos. Estos son los que vemos con más frecuencia.

Datos en silos que nadie quiere compartir

En muchas empresas, cada departamento considera sus datos como propios. Comercial no quiere que finanzas vea su pipeline, operaciones no comparte sus métricas con dirección. El bloqueo no es técnico: es organizativo. Sin un mandato claro de la dirección para compartir datos, el proyecto no avanza.

Sistemas sin API ni acceso a base de datos

Algunos sistemas legacy solo permiten extraer datos mediante exportaciones manuales en CSV o informes predefinidos. Esto no impide el proyecto de IA, pero lo hace más lento y frágil. En estos casos, conviene evaluar si merece la pena invertir en un conector o si la exportación manual es asumible para la fase inicial.

Falta de conocimiento sobre qué significan los datos

Es más común de lo que parece: campos que nadie sabe exactamente qué miden, estados que cambiaron de significado hace años, categorías que se usan de forma distinta en cada delegación. Sin un diccionario de datos o alguien que explique la semántica de cada campo, el riesgo de alimentar al modelo con datos mal interpretados es alto.

Expectativas desalineadas sobre el plazo

La dirección espera resultados de IA en semanas, pero la preparación de datos lleva meses. Alinear expectativas desde el principio es clave. Un diagnóstico de datos bien hecho permite dar plazos realistas y decidir si conviene empezar por un piloto con los datos que ya tienes o invertir primero en mejorar la base.

Cuándo los datos son suficientes para empezar

Una de las preguntas más difíciles de responder es: ¿cuándo puedo arrancar? La tentación de esperar a tener datos perfectos es real, pero improductiva. Los datos perfectos no existen.

Estos son los criterios que usamos para evaluar si los datos están listos para un primer piloto.

1Los campos clave para el modelo tienen más del 85 % de completitud.
2No hay errores sistemáticos graves (por ejemplo, un campo de importe que mezcla euros y miles de euros).
3Hay suficiente volumen histórico para el tipo de modelo: al menos 1.000-2.000 registros para modelos tabulares simples, más para modelos complejos.
4Los datos de las distintas fuentes se pueden cruzar con un identificador fiable.
5Hay al menos una persona que puede validar si los resultados del modelo tienen sentido desde el punto de vista de negocio.

Si cumples estos cinco criterios, puedes arrancar un piloto. No será perfecto, pero permitirá validar si el enfoque funciona antes de invertir más en limpieza y preparación.

ℹ️ Nota

Muchos de los problemas de calidad se descubren durante el proyecto, no antes. Arrancar con un piloto acotado es la forma más eficiente de detectar qué datos necesitan más trabajo y dónde invertir el esfuerzo de preparación.

El coste de no preparar los datos

Saltarse la preparación de datos para ir directamente al modelo es una apuesta que rara vez sale bien. Según McKinsey, las empresas que invierten en calidad de datos antes de lanzar proyectos de IA obtienen resultados operativos significativamente mejores que las que se saltan esta fase.

Los costes concretos de no preparar los datos incluyen:

Modelos que producen predicciones erróneas y pierden la confianza del equipo de negocio.
Tiempo de los data scientists dedicado a limpiar datos en lugar de a construir modelos.
Proyectos que se alargan meses más de lo previsto porque los problemas de datos aparecen en fases avanzadas.
Decisiones basadas en datos incorrectos, con impacto directo en costes o ingresos.
Proyectos que se abandonan porque el retorno no justifica el esfuerzo acumulado.

De la preparación al proyecto: siguientes pasos

Preparar los datos no es un fin en sí mismo: es el paso que hace posible que la IA funcione. Una vez que tienes un dataset limpio, consistente y documentado, el siguiente paso es definir el caso de uso concreto, seleccionar el enfoque de modelado y lanzar un piloto acotado. Si quieres construir la base de datos sólida que soporte no solo IA sino también BI y reporting, puedes explorar nuestro servicio de plataforma de datos. Y si el bloqueo principal está en la calidad y la gobernanza, el servicio de gobierno del dato y calidad cubre exactamente eso.

Lo que no recomendamos: invertir seis meses en preparar datos sin un caso de uso definido. La preparación tiene que estar orientada a un resultado concreto. Limpia los datos que necesitas, valida con un piloto y amplía desde ahí.

Para mas informacion, puedes consultar la informe The State of AI de McKinsey.

Siguiente paso recomendado

Plataforma de datos

Te ayudamos a diseñar e implementar la infraestructura de datos que necesitas para que tus proyectos de IA funcionen sobre una base fiable.

Ver Plataforma de datos Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil meridiandata.es/autores/david-aldomar

Fuentes

Contenido y servicios relacionados

Seguir leyendo

Cómo preparar tus datos para un proyecto de IA

Evaluación de madurez de datos: por dónde empezar

Las cuatro dimensiones de calidad del dato para IA

1. Completitud

2. Exactitud

3. Consistencia

4. Frescura (timeliness)

Pasos concretos para preparar tus datos

Paso 1: Inventario de fuentes y datos disponibles

Paso 2: Perfilado de datos (data profiling)

Paso 3: Limpieza y normalización

Paso 4: Integración y modelado

Paso 5: Validación con el equipo de negocio

Paso 6: Documentación y linaje

Bloqueantes habituales: por qué los proyectos de datos se atascan

Datos en silos que nadie quiere compartir

Sistemas sin API ni acceso a base de datos

Falta de conocimiento sobre qué significan los datos

Expectativas desalineadas sobre el plazo

Cuándo los datos son suficientes para empezar

El coste de no preparar los datos

De la preparación al proyecto: siguientes pasos

Plataforma de datos

Contenido y servicios relacionados

Artículos relacionados

¿Están tus datos listos para IA? Cómo evaluar la calidad de datos antes de un proyecto

Catálogo de datos: qué es, para qué sirve y cuándo necesitas uno

Cómo implementar gobierno del dato paso a paso en tu empresa

Cómo hacer una auditoría de datos en 2 semanas para saber en qué estado estás

Gobierno del dato en una pyme: qué es y por qué importa

Cómo preparar tus datos para un proyecto de IA

Evaluación de madurez de datos: por dónde empezar

Las cuatro dimensiones de calidad del dato para IA

1. Completitud

2. Exactitud

3. Consistencia

4. Frescura (timeliness)

Pasos concretos para preparar tus datos

Paso 1: Inventario de fuentes y datos disponibles

Paso 2: Perfilado de datos (data profiling)

Paso 3: Limpieza y normalización

Paso 4: Integración y modelado

Paso 5: Validación con el equipo de negocio

Paso 6: Documentación y linaje

Bloqueantes habituales: por qué los proyectos de datos se atascan

Datos en silos que nadie quiere compartir

Sistemas sin API ni acceso a base de datos

Falta de conocimiento sobre qué significan los datos

Expectativas desalineadas sobre el plazo

Cuándo los datos son suficientes para empezar

El coste de no preparar los datos

De la preparación al proyecto: siguientes pasos

Plataforma de datos

Contenido y servicios relacionados

Artículos relacionados

¿Están tus datos listos para IA? Cómo evaluar la calidad de datos antes de un proyecto

Catálogo de datos: qué es, para qué sirve y cuándo necesitas uno

Cómo implementar gobierno del dato paso a paso en tu empresa

Cómo hacer una auditoría de datos en 2 semanas para saber en qué estado estás

Gobierno del dato en una pyme: qué es y por qué importa