Evaluando propuestas

Despliegue de 'arañas' de Scrapy en Scrapinghub

Publicado el 24 Junio, 2020 en Programación y Tecnología

Sobre este proyecto

Abierto

El problema a solucionar, implica conocimientos en el framework Scrapy para Python (3.8), Selenium, el servicio de deployment y gestión de spiders de Scrapinghub, Docker, conocimiento básico en distribuciones de sistemas operatvos Ubuntu o Linux.

Objetivo:
Lograr correr una araña desarrollada con Scrapy(version 2.1.0) en el servicio de arañas que Scrapinghub provee para este objetivo.

Problema:
El problema consiste en que la araña no solo scrapea de manera nativa con Scrapy, si no que también emplea Selenium, para poder obtener información dinámica necesaria para la información a scrapear.
La araña está en modo headless, y de manera local funciona sin problemas con nuestro propio Geckodriver para Firefox, el problema es que cuando es desplegado en scrapinghub, a través de una imagen creada con el archivo Dockerfile que contiene todas las dependencias necesarias para que funcione correctamente, han estado saltando fallas por tiempo de conexión a la url a través del navegador al querer acceder a la url con Selenium.
Lo que se necesita es recibir un planteamiento de una posible solución, llevarla a cabo, y comprobar si esta solución es efectiva.


Este trabajo se realizará colaborativamente con el programador de la araña para orientar y explicar con más detalle cuales fueron los pasos que se siguieron para llegar a este punto.

Categoría Programación y Tecnología
Subcategoría Programación Web
¿Cuál es el alcance del proyecto? Bug o cambio pequeño
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo Tengo las especificaciones
Disponibilidad requerida Según se necesite
Roles necesarios Programador, Analista funcional

Plazo de Entrega: 01 Julio, 2020

Habilidades necesarias