Sobre este proyecto
it-programming / data-science-1
Abierto
Propósito y Scope
Recientemente te has incorporado al equipo de Datos de una gran inmobiliaria. La primera tarea que te fue asignada fue ayudar a los tasadores/as a valuar las propiedades, ya que es un proceso difícil y, a veces, subjetivo. Para ello, se esperó que puedas crear un modelo de Machine Learning que, dadas ciertas características de la propiedad, prediga su precio de venta.
Estos son los recursos que vas a necesitar:
• Dataset Properati
• Retoma el notebook desarrollado para el Sprint Project 1 y considera la devolución que recibiste de tu tech reviewer.
Story Points
Observa el listado que te mostramos a continuación; los llamamos Story Points. Te preguntarás qué son y para qué te servirán. ¡No te asustes, ordenarán tu trabajo! En el backlog encontrarás un listado de acciones o tareas.
A estas se les asigna un valor en términos de complejidad o esfuerzo que denominamos Story Points. Tomaremos la escala Fibonacci para asignar los Story Points de cada requerimiento*. *
De esta forma podrás:
• Estimar rápidamente los diferentes problemas.
• Trabajar la incertidumbre que viene con la estimación.
• Planificar tu trabajo a futuro.
• Gestionar mejor las expectativas de tiempo.
Podrás escoger diferentes requerimientos del listado del backlog. Deberás sumar una mínima cantidad de 128 Story Points. Llegarás a este valor completando la totalidad de los requerimientos mínimos y una selección de requerimientos adicionales.
¡Cuantos más sumes, mejor!
Criterios de Aceptación
La resolución del sprint project te puede enfrentar a pequeños desafíos. Es importante que desarrolles la capacidad de resolverlos
Transformación de Datos
• Debes implementar al menos tres transformaciones de datos.
• Debes justificar por qué creés que las transformaciones elegidas aplican en este dataset.
Ten en cuenta que, en el manejo de valores atípicos o en la imputación de valores faltantes, los valores obtenidos deben tener sentido. Por ejemplo, valores mayores que cero para superficies, número de baños, etc.
• Debes reentrenar un modelo del Sprint Project 01 y comparar su desempeño con el modelo obtenido.
Una aclaración: con reentrenar nos referimos a usar el mismo proceso de entrenamiento junto con sus hiperparámetros. Pero puede ocurrir - y, de hecho, se espera - que el dataset contenga más atributos que los utilizados en el Sprint Project 01.
Modelos Avanzados
• En los Modelos Avanzados debes hacer un train/test split y usar Validación Cruzada.
• Al menos un modelo debe ser optimizado por Grid Search o Random Search; el otro puede ser optimizado por búsqueda manual (es decir, puedes dejar los mejores parámetros que encontraste probando).
• En la optimización de hiperparámetros, debes justificar los parámetros que elegiste para optimizar y el rango de cada uno.
Interpretación de Modelos
• Debes responder al menos una pregunta.
Obviamente, ¡cuanto más hagas, más aprenderás y mejor será tu sprint project!
• Debes estudiar qué variables utiliza el modelo para predecir y responder la pregunta: ¿coincide con lo que esperabas a partir de tu experiencia con este dataset?
• Es muy importante que analices los errores del modelo. ¿Dónde es mayor el error? ¿dónde acierta?
Cierre
• Debes ser crítico/a con la metodología utilizada. ¿Qué mejorarías? Ten en cuenta siempre terminar con una discusión sobre lo realizado y conclusiones obtenidas.
Contexto general del proyecto
Debe de venir documentado dentro del archivo.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite
Plazo de Entrega: No definido