Sobre este proyecto
it-programming / data-science-1
Abierto
Objetivo: El equipo de Libro de pases requiere implementar un modelo de matching que muestre para cada oferta de mercado publicada en la plataforma, aquellos jugadores más apropiados, considerando las características de la oferta y las características del perfil del jugador.
Requerimientos técnicos:
Machine learning:
Datos de entrenamiento:
Ofertas de mercado que solicitan ciertos valores para cada variable específica.
Todos los posibles perfiles de jugadores con sus valores específicos para las variables incluidas en la oferta.
Ejemplo:
Registro
País
Posición
Edad
Oferta 1
Brasil
Delantero Izquierdo
[20-25]
Jugador A
Argentina
Delantero Derecho
21
Jugador B
Brasil
Delantero Izquierdo
24
Se busca entrenar un modelo de similitud donde tantos las ofertas como los jugadores sean convertidos en vector para hallar la distancia coseno entre cierta oferta y cada uno de los jugadores. Finalmente el modelo debe predecir un score de similitud para cada jugador respecto a cada oferta. Librerias: NLTK y Scikit-learn.
Arquitectura: Despliegue y automatización del modelo en GCP utilizando servicios tales como:
Cloud Storage: Datos fuentes. Se dejarán las tablas con los datos necesarios para el modelo en un bucket de google cloud storage.
Dataflow: en caso de ser necesario ciertas transformaciones o verificación de la metada de los archivos fuentes.
AI Platform: generar los jobs donde se entrene el modelo de similitud y realicen las predicciones.
Container Registry: administrar las imágenes docker necesarias para la automatización de los jobs en AI Platform.
Composer: aprovisionar y utilizar las instancias de compute engine necesarias para generar el entrenamiento, predicciones del modelo y escritura de output final.
Cloud functions + Cloud scheduler: configurar la activación de los servicios, carga de datos, creación del composer, etc. Generando un modelo eficiente en costos.
BigQuery: generar la tablas con los resultados del modelo dentro del data warehouse de LDP en BigQuery.
Frecuencia de actualización: Cada 3 días, con posibilidad de ajuste.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite
Plazo de Entrega: No definido
Habilidades necesarias