Este proyecto se enfoca en el análisis del abandono de clientes (Churn) en Telecom X, una empresa de telecomunicaciones que ofrece servicios de telefonía, internet y streaming.
El objetivo es identificar las causas subyacentes de la fuga de clientes y proponer estrategias para mitigarla.
El análisis se divide en varias etapas clave:
- Extracción de datos: Obtención y estructuración de la información.
- Limpieza y transformación: Preparación de los datos para el análisis.
- Análisis exploratorio (EDA): Descripción y visualización de las variables.
- Análisis del Churn: Identificación de los factores que influyen en el abandono.
El resultado de este trabajo servirá como base para el desarrollo de futuros modelos predictivos que ayuden a la empresa a retener a sus clientes de manera proactiva.
El análisis se inicia con la extracción de datos de un archivo JSON anidado desde la siguiente URL:
TelecomX_Data.json
El archivo se procesó utilizando Pandas en Python para normalizar la estructura y convertirla en un DataFrame tabular, un formato ideal para el análisis de datos.
En esta etapa, se llevó a cabo un riguroso proceso de ETL (Extracción, Transformación, Carga) para asegurar la calidad y consistencia de los datos.
-
Renombrado de Columnas: Las columnas se renombraron al español para una mayor claridad.
Ejemplo:customer_gender→Genero. -
Manejo de Valores Nulos y Vacíos:
- Se encontraron valores
NaNen la columna Cargo_total. - Valores vacíos (
'') en Abandono_cliente. - Ambos se imputaron con la mediana de sus respectivas columnas.
- Se encontraron valores
-
Creación de Nueva Columna: Se generó la columna
Cuentas_diariaspara un análisis más granular. -
Conversión de Tipos de Datos: Columnas numéricas en formato
objectse convirtieron afloatoint. -
Codificación de Variables Categóricas:
- Variables binarias (
Sí/No,Male/Female) →1 / 0. - Variables multiclase (
Tipo_de_contrato,Metodo_de_pago) → valores numéricos.
- Variables binarias (
-
Validación: No quedaron filas duplicadas y los tipos de datos fueron correctos.
El EDA permitió describir las principales características de los clientes y sus servicios.
- Se analizó la distribución de Antiguedad_meses, Cargo_mensual y Cargo_total.
- Resultado: la mayoría de clientes son nuevos y tienen cargos relativamente bajos.
| Columna | Valores (%) |
|---|---|
| Genero | Male = 50.6%, Female = 49.4% |
| Tipo_de_contrato | Mes a Mes = 55.1%, Anual = 20.9%, Bianual = 24.0% |
| Metodo_de_pago | Electronic check = 33.6%, Mailed Check = 22.9%, Credit Card = 21.9%, Bank Transfer = 21.6% |
| Servicio_internet | Fibra Óptica = 44.0%, DSL = 34.2%, Sin Servicio = 21.8% |
- El 25.7% de los clientes abandonaron el servicio.
- Esta cifra subraya la urgencia de identificar y mitigar las causas del churn.
- Antiguedad_meses → correlación negativa -0.34.
- Tipo_de_contrato → correlación negativa -0.39 (contratos largos reducen el abandono).
- Servicio_internet → correlación positiva 0.31 (fibra óptica relacionada con mayor abandono).
- Antigüedad vs. Abandono: 53% de abandono en clientes con 0–4 meses.
- Contrato Mes a Mes → mayor tasa de churn.
- Fibra Óptica sin servicios adicionales → mayor abandono.
- Método de Pago: Cheque Electrónico asociado con más abandono.
El perfil más riesgoso:
- Antigüedad: 0 a 9 meses (47.9% de los que abandonan).
- Contratar Fibra Óptica.
- No contratar servicios adicionales.
- Tener contrato Mes a Mes.
- Pagar con Cheque Electrónico.
- Incentivar contratos de larga duración (descuentos y promociones).
- Crear paquetes de servicios adicionales (seguridad, soporte, respaldo).
- Mejorar calidad de Fibra Óptica (resolver problemas técnicos).
- Optimizar métodos de pago (impulsar tarjeta y transferencia bancaria).
- Programas de retención para clientes nuevos (seguimiento en primeros meses).
El DataFrame limpio y listo para su uso se encuentra en este repositorio.
La siguiente fase será la creación de modelos predictivos de Machine Learning, que permitirán:
- Identificar clientes en riesgo de abandono.
- Aplicar estrategias proactivas de retención.