📌 En resumen
Cuando las señales de abandono están repartidas entre CRM, tickets de soporte y telemetría de producto, el error habitual es empezar por el modelo predictivo. El cuello de botella real es la consolidación de datos: unificar identidad del cliente, homogeneizar eventos y construir un scoring simple. Una arquitectura lakehouse-lite (BigQuery o Snowflake + 3 fact tables + un modelo de regresión logística con 10-15 features) es suficiente para la primera iteración.
La frase "no sabemos qué clientes estamos perdiendo" es mucho más común de lo que parece. No porque la empresa no tenga datos, sino porque los tiene en tres sistemas que nunca se han juntado: CRM (contratos, contactos, histórico comercial), soporte (tickets, tiempos de resolución, sentimiento) y producto (actividad, features usadas, integraciones). Este post es sobre cómo pasar de "datos dispersos" a un scoring de riesgo semanal sin montar una catedral.
El primer obstáculo cuando se empieza a explorar churn con datos dispersos no es el machine learning, es la ausencia de una clave común. El CRM tiene el cliente por ID contrato, soporte lo identifica por email del remitente del ticket y producto lo conoce por user_id asignado al crear cuenta. Cruzar los tres sistemas requiere resolver tres cosas antes de pensar en un modelo:
Para la primera iteración no necesitas un lakehouse completo. La arquitectura más barata que funciona en pyme tiene estos componentes:
Coste total de infraestructura para una pyme con 500-5.000 cuentas activas: 200-600 €/mes. Tiempo de montaje: 6-8 semanas si se parte de cero.
La experiencia acumulada en proyectos reales indica que estas 10-15 variables cubren el 80% del valor predictivo en modelos de churn B2B:
| Categoría | Features clave | Origen típico |
|---|---|---|
| Uso de producto | Logins últimos 7/30 días, sesiones por semana, features activadas, integraciones activas | Telemetría producto |
| Soporte | Tickets abiertos últimas 4 semanas, severidad media, tiempo medio de resolución, NPS reciente | Helpdesk (Intercom, Zendesk, HubSpot Service) |
| Relación comercial | Días desde última llamada con account manager, cambios de contacto principal, tasks CRM cerradas | CRM |
| Contrato y pago | Días hasta renovación, downgrades recientes, retrasos de pago, cambios de plan | Billing + CRM |
| Demográficas | Industria, tamaño de empresa, tiempo como cliente, LTV acumulado | CRM |
Las features demográficas son las menos predictivas. Si tienes que elegir 5 variables para un primer modelo, empieza por uso de producto y soporte.
Para la primera iteración, una regresión logística con 10-15 features da típicamente AUC de 0,75-0,85 en B2B SaaS. Ventajas frente a XGBoost o deep learning en esta fase:
Cuando el modelo de regresión está estable y el equipo comercial ya lo usa a diario, tiene sentido evaluar el paso a XGBoost o LightGBM para ganar precisión. Antes no.
El modelo no entrega valor solo por existir. Necesita un playbook de retención que defina qué hacer según el nivel de riesgo:
| Score | Acción | Plazo |
|---|---|---|
| > 0,7 (alto riesgo) | Llamada inmediata del account manager senior + revisión de caso | ≤ 48 horas |
| 0,4 - 0,7 (medio) | Email de check-in personalizado + revisión de uso en 2 semanas | ≤ 1 semana |
| < 0,4 (bajo) | Sin intervención directa. Solo se incluye en reporting semanal. | — |
Sin este playbook, el equipo comercial ve un score en el CRM y no sabe qué hacer con él. La tasa de uso del modelo se hunde en 4-6 semanas. Las empresas que consiguen retornos reales con churn prediction son siempre las que invierten tiempo en diseñar el playbook antes que en refinar el modelo.
Las señales de que has superado la arquitectura mínima y necesitas profesionalizarla:
En ese punto tiene sentido evaluar una plataforma de datos real con dbt + orchestrator (Airflow, Dagster) + MLOps mínimo (MLflow, Weights & Biases). Ese salto típicamente duplica la infraestructura mensual pero habilita que el modelo de churn se convierta en un activo transversal.
Desde arranque del proyecto hasta primer scoring operativo: 6-8 semanas con un consultor senior dedicado. Resultados medibles en retención (variación del churn rate): 3-6 meses, porque requiere ciclo completo de playbooks ejecutados y clientes salvados.
Con menos de 100 casos de churn confirmados en los últimos 12 meses, un modelo supervisado no será fiable. En esa situación se puede empezar con un scoring por reglas (basado en umbrales sobre las features más obvias: sin login 30 días + ticket crítico abierto + renovación próxima) y acumular datos durante 6-12 meses antes de pasar a un modelo estadístico.
Siguiente paso recomendado
Acceso unificado por lenguaje natural a CRM, tickets y producto — sin mover todos los datos a un único sistema.
Sin compromiso · Respuesta en < 24h
Autor
Fundador y Consultor de Datos e IA
David Aldomar es fundador y consultor principal de MERIDIAN Data & IA, consultora especializada en ayudar a pymes y empresas medianas en España a tomar mejores decisiones con sus datos. Su trabajo se centra en cuatro áreas: diseño e implantación de plataformas de datos (data warehouses, pipelines ETL con dbt, integración de ERPs y CRMs), reporting y dashboards ejecutivos en Power BI, automatización de procesos de negocio con herramientas como n8n, y desarrollo de soluciones de inteligencia artificial aplicada — desde modelos de forecasting de demanda hasta copilots internos basados en RAG con LangChain y FastAPI. Ha liderado proyectos en sectores como logística y transporte, retail y distribución, servicios financieros, manufacturing y construcción, siempre con un enfoque pragmático: diagnóstico corto, entregables concretos y transferencia de conocimiento al equipo del cliente para que sea autónomo desde el primer día. Antes de fundar MERIDIAN, acumuló experiencia en consultoría de datos y transformación digital trabajando con stacks variados — desde entornos Microsoft (SQL Server, Power BI, Azure) hasta ecosistemas open source (Python, dbt, BigQuery). Su filosofía es que un buen proyecto de datos no se mide por la tecnología que usa, sino por las decisiones de negocio que permite tomar. Escribe regularmente en el blog de MERIDIAN sobre reporting, gobierno del dato, automatización e IA aplicada, con guías prácticas orientadas a responsables de negocio y equipos técnicos de empresas que quieren sacar partido real a sus datos sin depender de grandes consultoras.
Fuentes
Diseño e implementación de un sistema de detección y playbooks de retención operativos.
Qué señales conductuales predicen el abandono antes de que el cliente avise.
Cómo priorizar qué clientes atender primero con un modelo simple y datos que ya tienes.
Proyecto tipo de detección temprana de baja en una cadena con CRM, e-commerce y tienda física.
Seguir leyendo
17 min lectura
7 min lectura
7 min lectura
10 min lectura
9 min lectura
Última revisión: