Terminado

Lai Deming - Python experto con Scrapy

Publicado el 02 Julio, 2024 en Programación y Tecnología

Sobre este proyecto

Abierto

Busco un desarrollador Python con extensa experiencia en web scraping con Scrapy para dar apoyo y desarrollar evolutivos de una aplicación existente.

Importante: no busco alguien que sepa extraer por web scraping un monton de datos de una web determinada. Repito. No busco eso. Leed con detenimiento.

Por las características del proyecto, los ajustes constantes y las nuevas funcionalidades requeridas constantemente, buscamos una colaboración a medio o largo plazo con una dedicación de 10 o 20 horas semanales (y con picos puntuales de más dedicación).

Tengo un proyecto tecnologico basado en web scraping. Pero es scraping un poco especial porque implica atender request que nos envían para obtener determinados documentos personales obtenidos de paginas guvernamentales (navegando a través de ellas identificado con el Certificado Digital de una persona).
El scraping se realiza utilizando Scrapy, pero las llamadas HTTP se realizan usando una librería proporcionada por nuestro cliente que (utilizando cUrl especialmente parametrizado en su interior para autenticar con PKCS11) ejecuta las llamadas HTTP autenticadas para poder navegar por esas webs guvernamentales (a efectos de desarrollo, da igual la capa de autenticación. SImplemente hay que saber que las llamadas HTTP hay que hacerlas sí o sí a través de la librería facilitada por el cliente).

Los procesos de scraping consisten en navegar por ciertas paginas webs, rellenando formularios para obtener acceso a ciertos documentos, descargarlos y subirlos a un sistema externo a través de un endpoint a una API.

Las páginas por las que debemos navegar a veces son de navegación sencilla (HTML, enviando datos por formularios, etc..) Y en otros casos implica interactuar con aplicaciones javascript para conseguir los mismos resultados.. Por tanto hay que tener la experiencia y la habilidad para gestionar el scraping tanto web sencillo como interactuando con javascript (entendiendo que como las llamadas HTTP deben realizarse necesariamente con la librería de nuestro cliente no podemos usar cualquier framework)
Adjunto ejemplo de uno de los spiders que tenemos ahora mismo.
La aplicación está ahora mismo en producción y procesando peticiones de forma regular (procesa un centenar de peticiones únicas al día. No es un sistema de webscraping de captura masiva de datos. Se obtienen documentos concretos a demanda).
Pero tenemos en concreto un spider que ha dejado funcionar porque la web gubernamental ha pasado de navegación http normal (desde que te autenticas hasta que obtienes el documento requerido) a una aplicación javascript que navega y carga contenidos con llamadas ajax.
LA primera tarea (que no la única, pues esto pretende ser una colaboración a largo plazo) sería reconstruir el spider para que pueda obtener la misma información que antes siguiendo la nueva navegación de la web que lo proporciona.

Categoría Programación y Tecnología
Subcategoría Otros

Duración del proyecto No definido

Otros proyectos publicados por J. N.