Este trabajo es creative commons, puedes usarlo, distribuirlo sin preocupación. Su objetivo es el de mejorar el trabajo de todos los cientificos de datos o ingenieros de datos que trabajan en ML, enfocandose en la limpieza de datos y ensamble de hombre pobre de modelos comunes de ML.
Este es un repositorio con scripts que buscan automatizar el analisis de datos. A la fecha cuenta con dos modulos principales.
-
Data_prep: El modulo de preparación de datos, en este se encuentran dos submodulos: utils y data. En utils se encuentran todas las funciones para graficar los datos y en data las clases para limpiarlos y realizar ingeniería de caracteristicas. Ambos se ejecutan sobre el script prep.py
-
Main: Es el modulo principal. En este se ejecutan los modelos de Machine Learning. En este momento las clases están orientadas a problemas de regressión, se enfoca en enssemble de hombre pobre, manuales pero con resultados superiores a los clasicos.
Usa como dataset el Ames Dataset House Prices: Advance Regression Techniques
Este trabajo fue posible gracias a los siguientes notebooks y cursos
-
Comprehensive data exploration with Python por Pedro Marcelino
-
Stacked Regressions: Advanced Regression por Serigne Quant Data Scientist
-
Platzi Curso de Machine Learning Aplicado con Python por Juan Pablo Morales
-
Platzi Curso Profesional de Machine Learning con SciKit-Learn por Ariel Ortiz