Evaluating bids

Predicción de admisión a una universidad usando machine learning

Published on the October 06, 2024 in IT & Programming

About this project

Open

Con base en un conjunto de datos, se busca predecir la admisión universitaria y la aceptación de cupos utilizando algoritmos de machine learning como k-means y random forest. El proceso iniciará con la limpieza y preparación de los datos, seguido del entrenamiento y evaluación de modelos. Finalmente, se creará un dashboard en Power BI para visualizar los resultados y comparar la eficiencia de los diferentes algoritmos.

El dataset tiene N cantidad de variables con 2 variables predictoras, la primera es  si se le va a asignar cupo o no, por lo tanto la primera predicción es la asignación de cupo. Luego con la predicción de esa variable, se hará una segunda predicción cupo aceptado (si va a aceptar o rechazar el cupo asignado). En resumen hay que realizar una predicción y de ese resultado realizar otra predicción.

El entregable es de varias cosas:
1. Un .ipynb con todos los pasos a seguir documentando cada etapa, se deben de aplicar 4 tipos de algoritmos de ML (random forest, k-means, XGBoost y una red neuronal, ejemplo CNN). Además de afinar usando hiperparámetros, usar métricas de evaluación para elegir el mejor algoritmo.
2. Todo tipo de plots que ejemplifiquen todo lo realizado para el análisis (dentro del .ipýnb)
3. Dashboard en Power BI interactivo con las predicciones finales

- De ser preferible usar la librería scikit-learn.
- Dataset aproximadamente de 100k de registros y 40 variables incluidas las 2 predictoras.

Por favor revisar los documentos adjuntos para el contexto general y específico del proyecto.

Project overview

1. Preprocesamiento de Datos: Carga de datos: Importa el dataset a un entorno de programación como Python (utilizando librerías como Pandas) o R. Exploración de datos: Analiza las características del dataset (variables numéricas, categóricas, cantidad de datos faltantes, etc.) Para comprender su estructura. Limpieza de datos: Manejo de valores faltantes: Imputa los valores faltantes utilizando métodos como la media, mediana, moda o técnicas más sofisticadas como la imputación por K-Nearest Neighbors. Detección y eliminación de outliers: Identifica y elimina los valores atípicos que puedan afectar el modelo. Codificación de variables categóricas: Convierte las variables categóricas en numéricas utilizando técnicas como one-hot encoding o label encoding. Selección de características: Identifica las variables más relevantes para la predicción utilizando técnicas como la correlación, la importancia de las características en un modelo inicial o métodos más avanzados como el análisis de componentes principales (PCA). División de datos: Separa el dataset en un conjunto de entrenamiento y otro de prueba para evaluar el desempeño del modelo. 2. Modelado y Entrenamiento: Selección de algoritmos: K-means: Aunque K-means es un algoritmo de clustering, podría utilizarse para agrupar a los estudiantes en base a características similares y luego analizar si estos grupos tienen diferentes tasas de aceptación. Random Forest: Es un algoritmo de ensamble muy versátil que suele tener buen desempeño en problemas de clasificación. Otros algoritmos: Considera otros algoritmos como Regresión Logística, Árboles de Decisión, Support Vector Machines (SVM), redes neuronales, etc., Dependiendo de la naturaleza de los datos y el problema específico. Entrenamiento de modelos: Entrena cada uno de los modelos seleccionados con el conjunto de entrenamiento. Afinamiento de hiperparámetros: Ajusta los hiperparámetros de cada modelo para mejorar su desempeño utilizando técnicas como la búsqueda en cuadrícula o la búsqueda aleatoria. 3. Evaluación de Modelos: Métricas de evaluación: Utiliza métricas como precisión, recall, F1-score, matriz de confusión y curva ROC para evaluar el desempeño de cada modelo en el conjunto de prueba. Selección del mejor modelo: Elige el modelo que obtenga los mejores resultados en términos de las métricas seleccionadas, considerando también la interpretabilidad del modelo. 4. Creación de Dashboard en Power BI: Conexión a datos: Conecta Power BI al dataset original y a los resultados obtenidos con los modelos de machine learning. Visualizaciones: Crea visualizaciones como gráficos de barras, gráficos circulares, tablas dinámicas, mapas, etc., Para mostrar: Características de los estudiantes que ingresaron a la universidad y aceptaron el cupo. Comparación del desempeño de los diferentes modelos. Importancia de las variables en la predicción. Predicciones para nuevos datos. Interactividad: Permite a los usuarios interactuar con el dashboard filtrando los datos y explorando diferentes escenarios.

Category IT & Programming
Subcategory Other
Project size Medium
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed

Delivery term: Not specified

Skills needed