Despliegue de aranas de scrapy en scrapinghub - Freelance Job in Web development

About this project

Open

El problema a solucionar, implica conocimientos en el framework Scrapy para Python (3.8), Selenium, el servicio de deployment y gestión de spiders de Scrapinghub, Docker, conocimiento básico en distribuciones de sistemas operatvos Ubuntu o Linux.

Objetivo:
Lograr correr una araña desarrollada con Scrapy(version 2.1.0) en el servicio de arañas que Scrapinghub provee para este objetivo.

Problema:
El problema consiste en que la araña no solo scrapea de manera nativa con Scrapy, si no que también emplea Selenium, para poder obtener información dinámica necesaria para la información a scrapear.
La araña está en modo headless, y de manera local funciona sin problemas con nuestro propio Geckodriver para Firefox, el problema es que cuando es desplegado en scrapinghub, a través de una imagen creada con el archivo Dockerfile que contiene todas las dependencias necesarias para que funcione correctamente, han estado saltando fallas por tiempo de conexión a la url a través del navegador al querer acceder a la url con Selenium.
Lo que se necesita es recibir un planteamiento de una posible solución, llevarla a cabo, y comprobar si esta solución es efectiva.

Este trabajo se realizará colaborativamente con el programador de la araña para orientar y explicar con más detalle cuales fueron los pasos que se siguieron para llegar a este punto.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Small change or bug
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Roles needed Developer, Business analyst

Delivery term: July 01, 2020

Skills needed

JavaScript MySQL PHP Linux Python Docker Selenium Ubuntu

Despliegue de 'arañas' de Scrapy en Scrapinghub

About this project

it-programming / web-development

Open