Evaluating bids

Crawling/Mirroring/Scrapping de website en Wayback Machine (archive.org)

Published on the September 19, 2018 in IT & Programming

About this project

Open

Necesito descargar todo el contenido disponible de un sitio web que se encuentra archivado en Wayback Machine.
El freelancer deberá estar famliarizado con la herramientas de scripting necesarias para hacer scraping the paginas con ajax / jquery tables.
Es necesario descargar todo el contenido disponible (la ultima versión "valida" de cada pagina,  excluyendo redirects, 404, empty pages..
.), O al menos construir un listado con las URLs para ser descargadas luego.
Hay aproximadamente 88,700 paginas de de este sitio almacenadas actualmente en Wayback Machine.
Es ideal que el trabajo lo realice alguien que ya tenga experiencia haciendo un dump desde este sitio.

Posteriormente será necesario hacer scraping del contenido para luego reconstruir el sitio en wordpress (esto es otro proyecto)

Category IT & Programming
Subcategory Other
Project size Medium
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
API Integrations Other (Other APIs)

Delivery term: Not specified

Skills needed

Other projects posted by W. G.