Preparar documentación para RAG y Copilot interno

Q: ¿Cuántos documentos necesito para montar un sistema RAG?

No hay un mínimo absoluto, pero con menos de 50 documentos relevantes y actualizados el sistema tendrá poco contenido para trabajar. Lo que importa no es la cantidad bruta sino la densidad de información útil para el caso de uso concreto. Un índice de 200 documentos bien mantenidos funciona mejor que uno de 2.000 con la mitad obsoletos.

Q: ¿Los PDFs escaneados pueden usarse en RAG?

Solo si tienen OCR aplicado y el texto es seleccionable. Un PDF escaneado sin OCR es opaco para el sistema: el motor de indexación no puede extraer el texto y el documento queda fuera del índice. La solución es pasar los documentos críticos por un proceso de OCR antes de indexarlos.

Q: ¿Qué ocurre si indexamos documentos contradictorios?

El sistema RAG los recuperará con igual confianza y el modelo generará respuestas que mezclan información de versiones distintas. El resultado son respuestas inconsistentes que el usuario no puede detectar como erróneas. Eliminar o archivar versiones obsoletas antes de indexar es uno de los pasos más importantes de la preparación documental.

Q: ¿Tiene sentido empezar con un subconjunto de documentación?

Sí, y suele ser la mejor estrategia. Identificar el perímetro documental que cubre el caso de uso prioritario, prepararlo bien y lanzar un piloto permite validar la utilidad del sistema antes de invertir en indexar toda la empresa. La iteración controlada reduce riesgo y acelera el aprendizaje sobre qué documentación funciona mejor.

Q: ¿Cómo mantenemos actualizado el índice cuando cambia la documentación?

Es imprescindible definir el proceso de mantenimiento antes del lanzamiento: quién actualiza los documentos, con qué frecuencia se re-indexa y cómo se valida que el índice refleja la documentación vigente. Sin un proceso definido, la calidad de las respuestas se degrada progresivamente a medida que los documentos evolucionan y el índice no.

David Aldomar

📌 En resumen

El rendimiento de un sistema RAG o Copilot interno depende más de la calidad de la documentación que del modelo o proveedor elegido. Los documentos que mejor funcionan son los orientados a procesos, criterio operativo y contexto de negocio. Los que están duplicados, obsoletos o sin responsable asignado generan respuestas inconsistentes. Este artículo explica qué tipos de documentos funcionan, cuáles conviene excluir y un checklist de validación antes de arrancar el proyecto.

Muchas empresas llegan a un proyecto de RAG o Copilot interno pensando que el reto principal es elegir modelo o proveedor. En la práctica, el cuello de botella suele estar antes: en la documentación. Según McKinsey (2025), el 60% de las implantaciones de IA generativa en empresas encuentran la calidad del dato como principal freno. Con RAG, ese problema se concentra en la base documental.

La pregunta que más repiten los equipos antes de arrancar es: "No sabemos si nuestros documentos están preparados." Este artículo responde esa pregunta de forma directa. Sin entrar en arquitectura técnica, sino en lo que depende del equipo: qué documentos sirven, cuáles generan ruido y cómo preparar la base documental antes del primer sprint.

Por qué la preparación documental determina el resultado del RAG

RAG (Retrieval-Augmented Generation) funciona en dos fases. Primero, el sistema busca en tu base documental los fragmentos más relevantes para la pregunta del usuario. Segundo, el modelo de lenguaje usa esos fragmentos como contexto para generar la respuesta. Si los fragmentos recuperados son obsoletos, ambiguos o contradictorios, la respuesta será mala aunque el modelo sea excelente. Según Azure AI Search (2025), la precisión del retrieval es el factor que más peso tiene en la calidad final de las respuestas.

El modelo no sabe distinguir entre un documento actualizado de esta semana y uno de hace cuatro años. Tampoco detecta que dos procedimientos internos se contradicen. Devuelve la información que encuentra con igual confianza. Por eso la calidad de la entrada determina directamente la calidad de la salida. No es una cuestión técnica: es una cuestión de gobierno documental.

ℹ️ Nota

RAG no distingue entre información actual y obsoleta. Si el sistema indexa documentos contradictorios de distintas épocas, las respuestas serán inconsistentes. Gartner (2024) estima que los problemas de calidad del dato cuestan a las empresas una media de 12,9 millones de dólares anuales. En RAG, ese coste se traduce directamente en respuestas incorrectas.

Qué documentos funcionan bien en RAG y Copilot

Funcionan bien los documentos orientados a procesos, criterio y contexto operativo. Es decir, materiales que ya ayudan a una persona nueva o a un equipo transversal a entender cómo hacer algo, cuándo aplica una excepción y dónde mirar si hay dudas. Cuanto más operativo y mantenido esté el documento, más útil suele resultar para un sistema RAG o Copilot interno.

Documentos de proceso y criterio operativo

Los procedimientos operativos estándar (SOPs), manuales de proceso y guías paso a paso son el tipo de documento más útil para RAG. Contienen reglas, contexto y lenguaje de negocio. No obligan al sistema a improvisar: le permiten recuperar piezas concretas y apoyarse en ellas para responder. La condición es que estén versionados, con fecha de última revisión visible y con un responsable asignado.

FAQs internas y bases de conocimiento

Las bases de conocimiento de soporte, los repositorios de incidencias resueltas y las FAQs internas funcionan especialmente bien porque ya están estructuradas en torno a preguntas y respuestas. El sistema RAG puede recuperar la respuesta directamente sin necesidad de sintetizar. La condición es que el mantenimiento sea activo: una FAQ desactualizada genera más daño que no tenerla.

Políticas, procedimientos y normativas

Las políticas internas, normativas corporativas y documentos de compliance funcionan bien porque aterrizan qué se puede hacer, qué no y quién aprueba. La condición crítica aquí es que el texto sea vigente y que el owner esté identificado. Indexar una política de hace tres versiones puede generar respuestas incorrectas con apariencia de autoridad.

Cuanto más operativo y mantenido esté el documento, más útil suele resultar para un copilot interno.
Tipo de documento	Por qué funciona	Precaución
Procedimientos y SOPs	Responden pasos, excepciones y criterios de ejecución	Versionado claro y última revisión visible
Políticas internas y normativa corporativa	Aterrizan qué se puede hacer, qué no y quién aprueba	Owner identificado y texto vigente
Guías de producto, servicio o soporte	Permiten responder preguntas frecuentes con base real	Estructura consistente y sin duplicidades
Bases de conocimiento de incidencias	Aportan troubleshooting y soluciones recurrentes	Etiquetado y mantenimiento activo
Plantillas, playbooks y checklists	Sirven para orientar tareas repetitivas	Contexto de uso y limitaciones explícitas

Documentos que generan problemas

No todos los documentos que existen en tu empresa son útiles para RAG. Algunos generan más ruido que valor. Indexarlos sin filtro previo puede empeorar la calidad de las respuestas respecto a no tenerlos. La regla general: si el documento no ayudaría a una persona nueva a hacer su trabajo, no ayudará al sistema RAG tampoco.

Documentos duplicados o con múltiples versiones sin control: el sistema no sabe cuál es la vigente y puede mezclar información de distintas épocas.
PDFs escaneados sin OCR: el texto no es extraíble y el sistema los ignora o genera errores.
Correos electrónicos y chats exportados: contienen conversaciones sin contexto suficiente, ruido alto y escasa estructura.
Documentos de hace más de tres años sin revisión: pueden ser técnicamente accesibles pero contener información obsoleta que el sistema devolverá con igual confianza que la actual.
Ficheros con contenido mayoritariamente visual: presentaciones con gráficos sin texto alternativo, tablas en imagen o diagramas sin descripción.
Documentación sin owner ni fecha: sin responsable asignado, no hay garantía de que el contenido sea fiable ni de que se actualizará.

⚠️ Atención

Indexar más no significa responder mejor. Un índice de 10.000 documentos con el 60% obsoletos o duplicados produce peores resultados que un índice de 500 documentos bien mantenidos. La auditoría previa no es un paso opcional: es lo que determina si el proyecto tiene sentido antes de gastar tiempo y presupuesto en infraestructura.

Los 5 requisitos reales para que tu base documental funcione en RAG

Siguiente paso

Copilot RAG para empresa

Si tu base documental ya esta lista, el siguiente paso es desplegar el sistema. Te explicamos como con nuestro servicio de Copilot RAG.

Saber más →

1Texto extraíble. Los documentos deben ser digitales y con texto seleccionable. PDF con texto real, Word, Markdown, páginas de wiki, Google Docs o Confluence. Un PDF escaneado sin OCR es opaco para el sistema y quedará fuera del índice.
2Estructura mínima identificable. Títulos, secciones y párrafos que un programa pueda distinguir. No hace falta formato perfecto, pero sí que sea claro dónde empieza un tema y dónde acaba. Los documentos completamente planos sin jerarquía producen chunks de baja calidad.
3Información actualizada y coherente. RAG no distingue entre documentos de esta semana y de hace cuatro años. Si hay versiones contradictorias indexadas a la vez, las respuestas serán inconsistentes. La regla práctica: si no puedes decir quién es el owner y cuándo fue la última revisión, no lo indexes todavía.
4Densidad de información útil. Con menos de 50-100 documentos relevantes y actualizados, el sistema tendrá poco contenido para trabajar. No se trata de cantidad bruta, sino de cuántos documentos responden realmente las preguntas del caso de uso definido.
5Accesibilidad técnica. Los documentos deben poder extraerse de forma programática. SharePoint, Confluence, Google Drive, un gestor documental con API o un servidor de archivos con estructura razonable son viables. Documentación repartida en emails, chats y discos duros personales requiere consolidación previa.

Señales de que tus documentos no están listos

No sabes con certeza cuántos documentos activos tienes ni dónde están todos.
Hay varios ficheros con el mismo nombre o contenido similar sin saber cuál es el definitivo.
La documentación no se ha revisado en más de dos años de forma sistemática.
No hay un responsable claro de cada área de documentación.
Una parte significativa está en PDFs escaneados, imágenes o presentaciones sin texto alternativo.
El equipo que usaría el copilot no confía en que la documentación existente refleje cómo se trabaja realmente hoy.

Cómo preparar la documentación en la práctica

Preparar la base documental para RAG no requiere una transformación documental completa antes de empezar. Requiere un enfoque pragmático: identificar el subconjunto de documentación que cubre el caso de uso, evaluarlo con criterios claros y corregir solo lo que impide el funcionamiento. No es necesario que todo esté perfecto para lanzar un piloto útil.

Auditoría documental previa

Antes de indexar nada, conviene hacer un inventario rápido: cuántos documentos existen, en qué formatos, cuándo fue la última actualización y quién los mantiene. No hace falta ser exhaustivo en toda la empresa: basta con el perímetro del caso de uso elegido. Esta auditoría tarda entre uno y tres días según el volumen, y evita semanas de trabajo desperdiciado en infraestructura sobre documentación inutilizable.

Estructuración y limpieza

Una vez identificados los documentos útiles, el siguiente paso es asegurar que el texto es extraíble, que las versiones duplicadas quedan fuera del índice y que los documentos obsoletos se archivan o eliminan. En paralelo, conviene añadir metadatos mínimos a los documentos clave: área, fecha de revisión y owner. Esos metadatos permiten filtrar por permisos y por vigencia en el momento de la consulta.

Mantenimiento continuo

Mantener la base de conocimiento al día requiere un proceso continuo de actualización, versionado y re-indexación. No es suficiente con preparar bien el corpus inicial. Si los documentos cambian y el índice no se actualiza, la calidad de las respuestas se degrada progresivamente. El proceso de mantenimiento debe estar definido antes del lanzamiento: quién actualiza, con qué frecuencia y cómo se valida que el índice refleja la documentación vigente.

Checklist antes de lanzar tu proyecto RAG

1Tenemos un caso de uso concreto definido, no solo la idea de que sea útil en general.
2Hemos identificado el subconjunto de documentación que cubre ese caso de uso.
3Todos los documentos del perímetro tienen texto extraíble (sin PDFs escaneados sin OCR).
4Hemos eliminado o archivado las versiones duplicadas o contradictorias.
5Cada documento del índice tiene un owner identificado y una fecha de última revisión.
6Los documentos más críticos tienen estructura mínima: secciones, títulos y párrafos distinguibles.
7Contamos con al menos 50 documentos relevantes y actualizados para el caso de uso.
8Sabemos cómo se va a actualizar el índice cuando cambie la documentación.
9Hemos revisado los permisos de acceso: quién puede consultar qué y si el copilot debe respetar esos permisos.
10El equipo que usará el copilot ha validado que la documentación actual refleja cómo se trabaja de verdad.

Si tu documentación supera este checklist, estás en condiciones de arrancar un piloto con garantías. Si detectas problemas en varios puntos, lo más eficiente es resolverlos antes de invertir en infraestructura. El siguiente paso natural es entender cómo conectar esa base documental a las fuentes que ya usas, o explorar directamente cómo desplegamos un Copilot RAG sobre documentación interna.

Siguiente paso recomendado

Copilot RAG para empresa

Si tu base documental ya esta lista, el siguiente paso es desplegar el sistema. Te explicamos como con nuestro servicio de Copilot RAG.

Ver Copilot RAG para empresa Reservar diagnóstico (20 min)

Sin compromiso · Respuesta en < 24h

Preguntas frecuentes

¿Cuántos documentos necesito para montar un sistema RAG?

No hay un mínimo absoluto, pero con menos de 50 documentos relevantes y actualizados el sistema tendrá poco contenido para trabajar. Lo que importa no es la cantidad bruta sino la densidad de información útil para el caso de uso concreto. Un índice de 200 documentos bien mantenidos funciona mejor que uno de 2.000 con la mitad obsoletos.

¿Los PDFs escaneados pueden usarse en RAG?

Solo si tienen OCR aplicado y el texto es seleccionable. Un PDF escaneado sin OCR es opaco para el sistema: el motor de indexación no puede extraer el texto y el documento queda fuera del índice. La solución es pasar los documentos críticos por un proceso de OCR antes de indexarlos.

¿Qué ocurre si indexamos documentos contradictorios?

El sistema RAG los recuperará con igual confianza y el modelo generará respuestas que mezclan información de versiones distintas. El resultado son respuestas inconsistentes que el usuario no puede detectar como erróneas. Eliminar o archivar versiones obsoletas antes de indexar es uno de los pasos más importantes de la preparación documental.

¿Tiene sentido empezar con un subconjunto de documentación?

Sí, y suele ser la mejor estrategia. Identificar el perímetro documental que cubre el caso de uso prioritario, prepararlo bien y lanzar un piloto permite validar la utilidad del sistema antes de invertir en indexar toda la empresa. La iteración controlada reduce riesgo y acelera el aprendizaje sobre qué documentación funciona mejor.

¿Cómo mantenemos actualizado el índice cuando cambia la documentación?

Es imprescindible definir el proceso de mantenimiento antes del lanzamiento: quién actualiza los documentos, con qué frecuencia se re-indexa y cómo se valida que el índice refleja la documentación vigente. Sin un proceso definido, la calidad de las respuestas se degrada progresivamente a medida que los documentos evolucionan y el índice no.

Autor

David Aldomar

Fundador y Consultor de Datos e IA

David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.

Ver perfil meridiandata.es/autores/david-aldomar

Fuentes

Preparar documentación para RAG y Copilot interno

Por qué la preparación documental determina el resultado del RAG

Qué documentos funcionan bien en RAG y Copilot

Documentos de proceso y criterio operativo

FAQs internas y bases de conocimiento

Políticas, procedimientos y normativas

Documentos que generan problemas

Los 5 requisitos reales para que tu base documental funcione en RAG

Señales de que tus documentos no están listos

Cómo preparar la documentación en la práctica

Auditoría documental previa

Estructuración y limpieza

Mantenimiento continuo

Checklist antes de lanzar tu proyecto RAG

Copilot RAG para empresa

Preguntas frecuentes

Contenido y servicios relacionados

Artículos relacionados

RAG vs búsqueda tradicional: cuándo merece la pena cambiar

RAG en empresa: la guía completa para implantar un copilot interno fiable

RGPD en un copilot interno o sistema RAG: qué revisar antes de conectar tus documentos

Chatbot interno con documentos: requisitos para que responda con fiabilidad

Permisos en RAG empresarial: cómo evitar que el copilot vea demasiado

Preparar documentación para RAG y Copilot interno

Por qué la preparación documental determina el resultado del RAG

Qué documentos funcionan bien en RAG y Copilot

Documentos de proceso y criterio operativo

FAQs internas y bases de conocimiento

Políticas, procedimientos y normativas

Documentos que generan problemas

Los 5 requisitos reales para que tu base documental funcione en RAG

Señales de que tus documentos no están listos

Cómo preparar la documentación en la práctica

Auditoría documental previa

Estructuración y limpieza

Mantenimiento continuo

Checklist antes de lanzar tu proyecto RAG

Copilot RAG para empresa

Preguntas frecuentes

Contenido y servicios relacionados

Artículos relacionados

RAG vs búsqueda tradicional: cuándo merece la pena cambiar

RAG en empresa: la guía completa para implantar un copilot interno fiable

RGPD en un copilot interno o sistema RAG: qué revisar antes de conectar tus documentos

Chatbot interno con documentos: requisitos para que responda con fiabilidad

Permisos en RAG empresarial: cómo evitar que el copilot vea demasiado