About this project
it-programming / web-development
Open
El problema a solucionar, implica conocimientos en el framework Scrapy para Python (3.8), Selenium, el servicio de deployment y gestión de spiders de Scrapinghub, Docker, conocimiento básico en distribuciones de sistemas operatvos Ubuntu o Linux.
Objetivo:
Lograr correr una araña desarrollada con Scrapy(version 2.1.0) en el servicio de arañas que Scrapinghub provee para este objetivo.
Problema:
El problema consiste en que la araña no solo scrapea de manera nativa con Scrapy, si no que también emplea Selenium, para poder obtener información dinámica necesaria para la información a scrapear.
La araña está en modo headless, y de manera local funciona sin problemas con nuestro propio Geckodriver para Firefox, el problema es que cuando es desplegado en scrapinghub, a través de una imagen creada con el archivo Dockerfile que contiene todas las dependencias necesarias para que funcione correctamente, han estado saltando fallas por tiempo de conexión a la url a través del navegador al querer acceder a la url con Selenium.
Lo que se necesita es recibir un planteamiento de una posible solución, llevarla a cabo, y comprobar si esta solución es efectiva.
Este trabajo se realizará colaborativamente con el programador de la araña para orientar y explicar con más detalle cuales fueron los pasos que se siguieron para llegar a este punto.
Category IT & Programming
Subcategory Web development
What is the scope of the project? Small change or bug
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Roles needed Developer, Business analyst
Delivery term: July 01, 2020
Skills needed