Sobre este proyecto
it-programming / others-5
Abierto
Nuestra empresa tiene un sitio web desarrollado en Google Sites la cual requerimos que se pueda hacer web scrap de la web para poder capturar los links (mayormente links de Drive y YouTube) y almacenar estos links en una base de datos o un archivo json.
Requerimientos del proyecto:
- La web está desarrollada en Google Site y pertenece a nuestro dominio de Google Workspace
- La web es parcialmente "fija" pero ciertas partes visuales así como el contenido (artículos y links) pueden variar.
- Los elementos a capturar siguen todos un mismo patrón-estructura (ver adjuntos) lo que podría ayudar a implementar la lógica de barrido
- La web tiene Login con Google y es accesible únicamente para usuarios de nuestro dominio de Google Workspace
- Si el usuario ya está autenticado, puede acceder a la web; si no está autenticado, se le pide login con Google nativo de Google
- Se podría crear un usuario con correo dentro de nuestro dominio para el scraper si fuera necesario hacerlo
- El scraper debe capturar todos los links con sus respectivos textos y almacenarlos en una base de datos o json (recomendar y elegir cualquiera pero que garantice mayor velocidad de recuperación de información ya que luego implementaremos una API para recuperar la data)
- El scraper deberá ejecutarse automáticamente 1 vez al día todas las noches sin intervención humana para actualizar la información almacenada en la base de datos
- Se deberá poder cambiar configurar la frecuencia del scraper
- Se deberá tomar en cuenta los bloqueos del scraper para evitar que éste sea bloqueado (presentar propuestas e indicar probabilidad/garantía de que la técnica usada para evitar el bloqueo funcione sin tener que recurrir a mantenimientos/parches frecuentes, o de requerir mantenimiento, cuál sería el costo asociado a estos)
- Se puede usar VM o cualquier otro para hostear el scraper (tenemos Google Cloud Platform)
Opcional deseable:
Sería un plus poder desarrollar una api para exponer un servicio que reciba un string de entrada y devuelva la lista de resultados de la bd antes mencionada ya que queremos conectaremos esta api a un componente web para elaborar una barra de búsqueda embebida al google site (deseable, si el consultor solo sabe web scraping no hay problema, porque podemos delegar esto a otro desarrollador web).
Categoría Programación y Tecnología
Subcategoría Otros
Tamaño del proyecto Pequeño
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo Tengo las especificaciones
Disponibilidad requerida Según se necesite
Plazo de Entrega: No definido
Habilidades necesarias