Sobre este proyecto
it-programming / data-science-1
Abierto
Buscamos un desarrollador con experiencia en scraping y automatización para crear e integrar bots que se conectan directamente con los portales inmobiliarios Fotocasa e Idealista . Aunque estamos abiertos a desarrollar los bots desde cero, es imprescindible reutilizar fragmentos del código de nuestros bots actuales para garantizar que el sistema funcione sin errores y mantenga la operativa actual.
Actualmente, contamos con 4 bots desarrollados en Python y Sqlalchemy que operan de manera continua en contenedores Docker sobre un servidor Linux y estaban conectados a una API que ya no es accesible. Estos bots almacenan los datos en la tabla “prop_explorer” , que luego se procesan para generar archivos CSV , Excel , y alimentan diferentes tablas de nuestro modelo de base de datos. Los nuevos bots deberán desarrollarse o actualizarse para realizar scraping en Fotocasa e Idealista , capturando datos de las 52 provincias de España tanto de venta como de alquiler . En la actualidad, tenemos cerca de 1 millón de propiedades en nuestra base de datos, pero es necesario que se actualicen por ID (referencia del anuncio) y se extraigan nuevos anuncios diariamente en tiempo real .
Requisitos del proyecto:
1- Bot ExcelDrive :
Asegurarse de que este bot suba los archivos CSV generados desde "prop_explorer" a Google Drive una vez al día, divididos por provincias.
2- Bot Histórico :
Se debe garantizar que el bot actualice precios, fotos, y demás información de las propiedades existentes, además de eliminar los anuncios que ya no estén disponibles. Este bot debe sincronizarse con nuestra base de datos "prop_explorer" de forma continua, comparando por ID de propiedad , para mantener el inventario actualizado en tiempo real.
3- Bot Nuevos :
Este bot deberá extraer todas las nuevas propiedades de Fotocasa e Idealista y almacenarlas en "prop_explorer". Se debe asegurar que funcione de manera continua y sin interrupciones, comparando los anuncios por ID de propiedad y garantizando una extracción eficiente y optimizada para evitar bloqueos.
4- Bot Statistic :
Se debe verificar que este bot copia correctamente los datos de “prop_explorer” a las diversas tablas de nuestro modelo de base de datos para su uso en la web, funcionando en tiempo real.
Características Técnicas Clave:
Integración con bots existentes o desarrollo desde cero con fragmentos necesarios :
Los nuevos bots deberán integrarse correctamente con los bots actuales, aprovechando las soluciones de proxies y gestión de captchas ya implementadas.
Automatización continua :
Asegurar que los bots funcionen en segundo plano de manera continua, sin interrupciones, capturando y actualizando los datos.
Optimización para evitar bloqueos :
Implementar técnicas como uso de proxies , rotación de IP y manejo de captchas para evitar bloqueos por parte de los portales.
Actualización en tiempo real :
Garantizar que los bots detecten cambios en precios y disponibilidad lo más rápido posible, reflejando estos cambios inmediatamente en nuestra base de datos.
Categoría Programación y Tecnología
Subcategoría Data Science
Plazo de Entrega: No definido