Modelo de Deserción (Churn)

El problema 

La pandemia y sus efectos económicos han traído un incremento significativo de deserción estudiantil y por ende un efecto negativo en la cartera de nuestro cliente. Se requiere de una estrategia personalizada no solo para recuperar a los desertores sino también prevenir la deserción antes de que ocurra. 

La oportunidad

Entender a fondo las características de los estudiantes desertores para: 

1. Crear una estrategia de comunicación personalizada para su reinserción 

2. Identificar estudiantes en riesgo de deserción y crear una estrategia de comunicación que la prevenga.

El plan

Crear modelo estadístico para todos los estudiantes, desertores y no desertores y revisar mensualmente.


Primera Fase - Exploración de Data

Mucha de la información proveida estaba incompleta (espacios amarillos).


Columnas de los estudiantes no retirados


Columnas de los estudiantes retirados


Aproximadamente 5% de los alumnos dentro de la data no tenia informacion de sexo, edad, etc. Información clave, como el último nivel cursado, si trabaja o no, y el tipo de ocupación no tienen ningún valor en la data proveída. Así mismo, solo pudimos obtener información de asignaturas (clases, profesores, promedios) de los estudiantes no retirados lo cual hizo imposible su inclusión en el análisis.


Estandarización y Agrupamiento


Muchas variables tenían muchos valores escritos de manera diferente (Municipios, Ciudades, Barrios) o una distribucion anormal (Promedios, Edades, Tiempo en Residencia). Por esto creamos clases (o grupos) para poder analizar el efecto de las variables de mejor manera. 


Dos de las más de 20 clases que creamos para facilitar el análisis.



Identificación de Variables


Para la identificación de variables, analizamos la distribución de los valores a través de un histograma (cuadro izquierdo) para ver las características de todos los estudiantes (retirados y no retirados).  Luego, dividimos el histograma en retirados (naranja) y no retirados (azul). Las variables más interesantes para el análisis son las que tienen mayor diferencia entre los diferentes colores.

Histograma de edades, e histograma de edades divididas entre retirados y no retirados


La distribución de edades (cuadro izquierdo) indica que la mayoría de estudiantes está entre los 20-30 años. Sin embargo, el histograma dividido entre retirados y no retirados indica que la mayor diferencia dentro de los grupos de edad está en el grupo de alumnos entre 21-25 años. Al mismo tiempo, el grupo de alumnos menores de 18 años no tiene diferencias significativas entre la columna naranja y la columna azul. Esto indica que este corte es menos significativo.

 

Histograma de estratos, e histograma de estratos divididos entre retirados y no retirados


En cuanto a los estratos, encontramos que la mayoría de los alumnos pertenecen al 2 o 3. Sin embargo, la diferencia entre los estratos 1 y 2 son las más pronunciadas en el histograma derecho.


Histograma de Sistema de Pago, e histograma de Sistema de Pago dividido entre retirados y no retirados


El histograma de los sistemas de pago (el número de cuotas) tiene una distribución relativamente normal, con la mayoría de alumnos pagando o en 3 cuotas o inmediatamente. La mayor diferencia entre retirados y no retirados se encuentra en los alumnos que pagan más en más de 4 cuotas.


Histograma de Tiempo Domicilio, e histograma de Tiempo Domicilio dividido entre retirados y no retirados



Después de agrupar las diferentes duraciones de estudiantes en su domicilio, podemos ver que la mayoría de alumnos en la data llevan más de 5 años en su residencia, seguido por meses (menos de 12 meses), 2, y 1 años.  La mayor diferencia se evidencia en el histograma derecho en los alumnos que solo llevan meses en su residencia.


Este mismo ejercicio se repitió con casi 30 agrupaciones distintas, para descubrir patrones en las variables.




Segunda Fase – Hacer Modelos


Una vez seleccionados las clases de variables de interés, las convertimos en valores binarios (SEXO_MASCULINO=1, SEXO_MASCULINO=0) y creamos una matriz de correlaciones. Esto nos ayuda a descubrir relaciones entre variables y todavía más importante nos ayuda a ver cuales variables tienen las correlaciones más altas con nuestro target (Retirado = 1)







Las variables más correlacionadas con el ser retirado son el semestre en el que entraron (ID_PAC_2020_1T, el promedio, las cuotas, y el tipo de programa). De 172 variables en total, seleccionamos las que tenían correlación mayor de 0 (72) y tenían más usabilidad. Por ejemplo, la variable con la correlación más alta era si el alumno se había inscrito en el primer trimestre de 2020. Aunque esta información es interesante, no es útil ya que no podemos cambiar el tiempo de inscripción y además sabemos que la mayoría de retirados vienen de este trimestre por circunstancias coyunturales.








Modelos


Una vez preseleccionadas las variables, definimos nuestro objetivo (predecir si un estudiante se va a retirar) y las probamos con diferentes modelos:


Modelo

Precision

Regresion Logistica

84%

Naive Bayes

84%

KNN

75%

SVM

83%

Random Forest

38%


La regresión logística logró clasificar correctamente a los estudiantes retirados el 85% de las veces. Además, este modelo es el más interpretable dentro de los modelos de clasificación. Abajo podemos ver la matriz de confusión del modelo:



Evaluación del Modelo - Matriz de Confusión


Cada fila de la matriz representa el número de predicciones de cada clase, mientras que cada columna representa a las instancias en la clase real., o sea en términos prácticos nos permite ver qué tipos de aciertos y errores está teniendo nuestro modelo a la hora de pasar por el proceso de aprendizaje con los datos.



En el caso de nuestro modelo, este puede predecir

  • Verdaderos positivos el 84% de los casos

  • Verdaderos negativos el 40% de los casos (lo cual es irrelevante ya que se usó otro modelo para predecir los negativos)

  • Falsos positivos solo el 1.5% de los casos

  • Falsos negativos el 14% de los casos


Tercera Fase - Conclusiones


Una vez evaluado el modelo, identificamos las 5 variables más importantes para determinar si un estudiante se va a retirar o no. Estas son:


  1. PROMEDIO_CICLO_MENOS_2 

  2. SISTEMA_DE_PAGO_4_CUOTAS

  3. ESTUDIO_COD_GAS (Gastronomía) 

  4. EDAD_21_25

  5. TIEMPO_DOMICILIO_MESES


Esto quiere decir que el perfil del estudiante desertor es de un joven entre 21-25 años, que lleva solo meses en su domicilio actual, pagará el semestre en 4 o más cuotas, en el ciclo lleva un promedio menor de 2.0 y estudia gastronomía. 


Al mismo tiempo, podemos identificar las 5 variables más importantes para determinar si un estudiante NO se va a retirar. Estas son :


  1. EDAD_MENOR_20

  2. ESTUDIO_COD_ING (Ingenieria) 

  3. PAGO_INMEDIATO

  4. PAGO_3_CUOTAS

  5. ESTRATO_TRES


El perfil del estudiante NO desertor es un poco más joven (menor de 20), de estrato 3, pagará su semestre en un máximo de 3 cuotas y estudia ingeniería.


Recomendaciones y pasos a seguir


  1. Estandarización opciones de base de datos

    1. A través de Google Forms se puede construir un sistema completamente gratuito que sólo permita al usuario llenar los valores con opciones limitadas. Además, se puede incentivar a la llenacion completa del formulario.

  2. Estrategia de Comunicación

    1. La comunicación debe resaltar carreras con más baja deserción (Ingeniería) y desenfocarse de carreras con mayor deserción (gastronomía). Hoy la carrera de gastronomía aparece prominentemente en la página y en Facebook.



  1. El target debe ser jovenes recien salidos del colegio y de estrato 3.

  2. Se debe incentivar el pago máximo de 3 cuotas.

  3. Soporte académico a estudiantes con promedio ciclo menor de 2.0.