Terminado

Ingeniería de Features, Modelos Avanzados e Interpretación de Modelos

Publicado el 19 Julio, 2021 en Programación y Tecnología

Sobre este proyecto

Abierto

Propósito y Scope
Recientemente te has incorporado al equipo de Datos de una gran inmobiliaria. La primera tarea que te fue asignada fue ayudar a los tasadores/as a valuar las propiedades, ya que es un proceso difícil y, a veces, subjetivo. Para ello, se esperó que puedas crear un modelo de Machine Learning que, dadas ciertas características de la propiedad, prediga su precio de venta.


Estos son los recursos que vas a necesitar:
•    Dataset Properati
•    Retoma el notebook desarrollado para el Sprint Project 1 y considera la devolución que recibiste de tu tech reviewer.

Story Points
Observa el listado que te mostramos a continuación; los llamamos Story Points. Te preguntarás qué son y para qué te servirán. ¡No te asustes, ordenarán tu trabajo! En el backlog encontrarás un listado de acciones o tareas.

A estas se les asigna un valor en términos de complejidad o esfuerzo que denominamos Story Points. Tomaremos la escala Fibonacci para asignar los Story Points de cada requerimiento*. *
De esta forma podrás:
•    Estimar rápidamente los diferentes problemas.


•    Trabajar la incertidumbre que viene con la estimación.
•    Planificar tu trabajo a futuro.
•    Gestionar mejor las expectativas de tiempo.



Podrás escoger diferentes requerimientos del listado del backlog. Deberás sumar una mínima cantidad de 128 Story Points. Llegarás a este valor completando la totalidad de los requerimientos mínimos y una selección de requerimientos adicionales.

¡Cuantos más sumes, mejor!
 

Criterios de Aceptación
La resolución del sprint project te puede enfrentar a pequeños desafíos. Es importante que desarrolles la capacidad de resolverlos

Transformación de Datos
•    Debes implementar al menos tres transformaciones de datos.
•    Debes justificar por qué creés que las transformaciones elegidas aplican en este dataset.

Ten en cuenta que, en el manejo de valores atípicos o en la imputación de valores faltantes, los valores obtenidos deben tener sentido. Por ejemplo, valores mayores que cero para superficies, número de baños, etc.
•    Debes reentrenar un modelo del Sprint Project 01 y comparar su desempeño con el modelo obtenido.

Una aclaración: con reentrenar nos referimos a usar el mismo proceso de entrenamiento junto con sus hiperparámetros. Pero puede ocurrir - y, de hecho, se espera - que el dataset contenga más atributos que los utilizados en el Sprint Project 01.
Modelos Avanzados
•    En los Modelos Avanzados debes hacer un train/test split y usar Validación Cruzada.


•    Al menos un modelo debe ser optimizado por Grid Search o Random Search; el otro puede ser optimizado por búsqueda manual (es decir, puedes dejar los mejores parámetros que encontraste probando).
•    En la optimización de hiperparámetros, debes justificar los parámetros que elegiste para optimizar y el rango de cada uno.
Interpretación de Modelos
•    Debes responder al menos una pregunta.

Obviamente, ¡cuanto más hagas, más aprenderás y mejor será tu sprint project!
•    Debes estudiar qué variables utiliza el modelo para predecir y responder la pregunta: ¿coincide con lo que esperabas a partir de tu experiencia con este dataset?
•    Es muy importante que analices los errores del modelo. ¿Dónde es mayor el error? ¿dónde acierta?
Cierre
•    Debes ser crítico/a con la metodología utilizada. ¿Qué mejorarías? Ten en cuenta siempre terminar con una discusión sobre lo realizado y conclusiones obtenidas.

Contexto general del proyecto

Debe de venir documentado dentro del archivo.

Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite

Plazo de Entrega: No definido