Analisando propostas

Construção de robô de scraping para popular base de dados

Publicado em 23 de Julho de 2020 dias na TI e Programação

Sobre este projeto

Aberto

Necessito construir um banco de dados em SQL (Postgres/SQLite/MySQL) com dados de cadastro da Prefeitura de São Paulo e de cartórios da cidade.

O site Geosampa (http://geosampa.prefeitura.sp.gov.br/) permite o acesso a uma base de dados com o cadastro e IPTU de todos os terrenos da cidade (Geosampa>Dados Abertos>Cadastro>IPTU). O primeiro passo do projeto seria transferir esses dados (de maneira organizada e limpa) para uma base de dados em SQL (com alguma maneira fácil de eu atualizar os dados que saem a cada ano).

O segundo passo seria criar uma ferramenta de scraping dos 6 cartórios de São Paulo que permitem acesso online às bases. Gostaria de rodar os dados da Geosampa pelos sites dos cartórios e ter como output o número de matrícula dos imóveis, dentro do próprio banco de dados em SQL falado no primeiro passo.

Problemas encontrados:
- cada site dos cartórios opera de uma maneira diferente (precisaríamos de um script para cada, já que são sites diferentes, com etapas diferentes)
- cada cartório pede inputs diferentes para encontrar o número da matrícula do imóvel que é nosso grande objetivo aqui (uns pedem o endereço, outros o IPTU)
- cada cartório cuida de uma região física da cidade, enquanto a base do Geosampa engloba todas as áreas (como filtrar previamente os dados para não rodar os milhares de endereços em cada site?)
- os sites dos cartórios podem em algum momento fechar a conexão dada a quantidade de acessos

No final, o objetivo é ter de forma atualizável os dados do Geosampa com uma coluna adicional: número de matrícula.

Segue link dos cartórios:
https://www.2risp.com.br/index.php?pG=X19jb25zdWx0YV9pbmRpY2Fkb3JfcmVhbF9jYXJ0b29u
http://www.4risp.com.br/frmPesquisarMatriculaImovel.aspx
http://www.oitavo.com.br/consultaeletronica/imovel
https://www.9risp.com.br/?pG=X19yZWFs
https://web.11ri.com.br/index.php?pG=X19jb25zdWx0YV9yZWFs
https://www.decimoquinto.com.br/servicos.php

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Médio
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: Não estabelecido

Habilidades necessárias