Este proyecto consiste en una aplicación web que permite aplicar algoritmos de minería de datos a conjuntos de datos variables.
Módulo que se encarga de cargar datos a la aplicación.
Permite entender la estructura del conjunto de datos, identificar la variable objetivo y posibles técnicas de modelado.
Se utiliza análisis de componentes principales (ACP o PCA, Principal Component Analysis) para reducir la cantidad de variables en el conjunto de datos, mientras se conserva la mayor cantidad de información posible.
Se aplica agrupamiento particional mediante el algoritmo de k-medias utilizando el conjunto de datos obtenido en la carga de datos, EDA o PCA.
Se entrena un modelo clasificación por regresión logística utilizando el conjunto de datos obtenido en la carga de datos, EDA o PCA.
Se utiliza el modelo de clasificación entrenado en el módulo Entrenamiento del clasificador para generar predicciones.
- Python 3.8 o superior
- Python
- Streamlit
- Pandas
- Scikit-Learn
- Plotly
- Clonar el repositorio
- Crear una un ambiente virtual de python
$ python3 -m venv env
- Activar el ambiente virtual (en Linux, MacOS o UNIX)
$ source env/bin/activate
- Activar el ambiente virtual (en Windows)
$ env\Scripts\activate.bat
- Instalar las dependencias
$ pip install -r requirements.txt
- Correr utilizando streamlit
$ streamlit run app.py