Usando Python en jupyter notebook o Google Colab, los pasos para realizar este miniproyecto son:
-
Cargar y revisar cada fuente de datos, ver su contenido, características y definir si será utilizado para complementar la información. Debe justificar la toma de decisión.
-
Filtrar los atributos que deben ser utilizados: ID cliente, límite de crédito otorgado, sexo, nivel educacional, estado civil, edad y estado de pagos por mes.
-
Unir las fuentes de información a partir de un atributo único.
-
Limpiar y depurar la base de datos unida, verificando datos faltantes, datos Nan, desconocidos, erróneos, duplicados y datos redundantes. Decidir qué hacer con los datos donde no hay información, ya sea imputar el dato o eliminar el cliente. Debe justificar esta toma de decisión.
-
Homogeneizar y normalizar datos. Dejar los datos con la estructura indicada en la tabla 1. Respetar la estructura y los espacios señalados. Finalmente normalizar, justificando el tipo de normalización escogida.
-
Generar un archivo de salida csv o Excel.
Opcionales:
1- Hacer un análisis de los datos entregados informando conclusiones que se pudieran extraer.
2- Proponer un pequeño plan de acción para mejorar las ganancias de la compañía.
3- Generar un dashboard en Looker Studio (Data Studio)
Se encuentra en report.ipynb
. Utilizamos Python3.9 y poetry para manejar las dependencias. En casos de problemas de compatibilidad, notificar a [email protected] para adjuntar una implementación en base a Docker.