Sobre este projeto
it-programming / web-development
Aberto
Queremos reunir uma base de dados de anúncios dos principais sites de carros usados: OXL, Mercado Livre, Webmotor e iCarros
No momento, procuramos um programador que nos ajude no processo de extração (mineração, raspagem, cada um chama de um jeito) dos dados desses sites, para criarmos um banco de dados unificado.
Para explicar melhor o escopo do projeto, vou usar como exemplo o site OLX (que é realmente o principal site para este projeto — os demais site são apenas complementares)
O objetivo é formar uma base de dados atualizada com os anúncios de carros da OLX.
Os anúncios NOVOS precisariam ser atualizados o mais rápido possível (por exemplo, de 1 em 1 minuto ou menos).
O próprio site OLX já tem um filtro "mais recentes", de forma que essa verificação de novos anúncios pode se concentrar apenas nesta "área" do site (e , portanto, do banco de dados deles).
A base como um todo poderia ser atualizada a cada 24 horas.
A atualização da base inteira seria para:
a) excluir anúncios retirados do ar / vendidos ;
b) atualizar o preço ou outros dados do anúncio que tenham sido modificados no site de origem.
Os dados a serem extraídos são os que fazem parte da própria base de dados do site, que no site podem ser usados como filtros de busca, e também são exibidos no corpo do anúncio:
- Preço
- Marca
- Modelo
- Ano
- Quilometragem
- Motor (1.0 , 1.2 , 2.0, etc)
- Câmbio (manual, automático, etc)
- Direção
- Combustível
- Tipo
- Cor
- Portas
- Opcionais
Sabemos esse grande número de solicitações do mesmo IP poderia gerar bloqueios. Uma das missões do programador será vencer esse problemas, seja por meio de um VPN ou outra alternativa.
Podemos filtrar apenas os anúncios que estão abaixo da tabela FIPE, o que reduz em 80% o número total de anúncios.
Segundo nossas pesquisas, a base total terá certa de 200 a 300 mil anúncios.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Bug ou alteração pequena
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Funções necessárias Desenvolvedor
Prazo de Entrega: Não estabelecido
Habilidades necessárias