Realizado

Raspagem de dados (pdf) de sites com captcha usando python

Publicado em 14 de Agosto de 2023 dias na TI e Programação

Sobre este projeto

Aberto

Desenvolver um serviço python que faz o download de pdfs em sites públicos. Ao final da execução
de cada raspagem de dados o pdf deve estar lido em bytes ou o conteúdo deve estar lido com os
caracteres extraídos em texto ou em screenshot legível.
É Permitido e recomendado usar APIs externas, por exemplo, APIs para quebra de diferentes tipos
de captcha (sistema de verificação para distinguir humanos e bots na internet). Elas devem estar
integradas no projeto. Recomenda-se usar as apis 2captcha e/ou capmonster (as apis keys serão
fornecidas).
O serviço criado deve rodar em container docker. Recomenda-se utilizar selenium ou outra
biblioteca para raspagem de dados como Beautiful Soup. Não se deve usar bibliotecas que são
fortemente dependentes de interface como PyAutoGUI para controle de teclado e mouse já que isso
não costuma funcionar bem em container docker.
Se trata de 2 sites em que o dado precisa ser raspado, aqui os dados e vídeo indicando como fazer
essa raspagem:
---
Site (governo federal): https://solucoes.receita.fazenda.gov.br/Servicos/certidaointernet/ITR/
EmitirPgfn
Desafio de implementação: Possui um hcaptcha escondido.
Dados para preencher: nirf 62459007
---
Site (campo largo - pr): https://colombo.atende.net/?pg=autoatendimento#!/tipo/servico/valor/36/
padrao/1/load/1
Desafio de implementação: Recaptcha que é aberto dentro de uma “section” do html (uma nova
janela
dentro da página), recaptcha v3 dentro da página e fazer o download do pdf em uma janela que é
aberta
Dados para preencher: Inscrição imobiliária 03.04.026.0158.001
---
Vídeo: https://intrainnovatech-my.sharepoint.com/:v:/g/personal/cchiarelli_esgtech_com_br/
EdeO1jTLtNNOjUstItgTvDgBvP5OzuQklqUReweJ42jUTQ?
nav=eyJyZWZlcnJhbEluZm8iOnsicmVmZXJyYWxBcHAiOiJTdHJlYW1XZWJBcHAiLCJyZWZ
lcnJhbFZpZXciOiJTaGFyZURpYWxvZyIsInJlZmVycmFsQXBwUGxhdGZvcm0iOiJXZWIiLCJy
ZWZlcnJhbE1vZGUiOiJ2aWV3In19&e=f11Imp
---
Essas mesmas informações se encontram no pdf em anexo.O entregável deve conter um arquivo README.md com todas as informações possíveis de como
executar o projeto e o funcionamento básico dos serviços dentro dele.

Contexto Geral do Projeto

Desenvolver um serviço python que faz o download de pdfs em sites públicos. Ao final da execução de cada raspagem de dados o pdf deve estar lido em bytes ou o conteúdo deve estar lido com os caracteres extraídos em texto ou em screenshot legível. É Permitido e recomendado usar APIs externas, por exemplo, APIs para quebra de diferentes tipos de captcha (sistema de verificação para distinguir humanos e bots na internet). Elas devem estar integradas no projeto. Recomenda-se usar as apis 2captcha e/ou capmonster (as apis keys serão fornecidas). O serviço criado deve rodar em container docker. Recomenda-se utilizar selenium ou outra biblioteca para raspagem de dados como Beautiful Soup. Não se deve usar bibliotecas que são fortemente dependentes de interface como PyAutoGUI para controle de teclado e mouse já que isso não costuma funcionar bem em container docker. Se trata de 2 sites em que o dado precisa ser raspado, aqui os dados e vídeo indicando como fazer essa raspagem: --- Site (governo federal): https://solucoes.receita.fazenda.gov.br/Servicos/certidaointernet/ITR/ EmitirPgfn Desafio de implementação: Possui um hcaptcha escondido. Dados para preencher: nirf 62459007 --- Site (campo largo - pr): https://colombo.atende.net/?pg=autoatendimento#!/tipo/servico/valor/36/ padrao/1/load/1 Desafio de implementação: Recaptcha que é aberto dentro de uma “section” do html (uma nova janela dentro da página), recaptcha v3 dentro da página e fazer o download do pdf em uma janela que é aberta Dados para preencher: Inscrição imobiliária 03.04.026.0158.001 --- Vídeo: https://intrainnovatech-my.sharepoint.com/:v:/g/personal/cchiarelli_esgtech_com_br/ EdeO1jTLtNNOjUstItgTvDgBvP5OzuQklqUReweJ42jUTQ? nav=eyJyZWZlcnJhbEluZm8iOnsicmVmZXJyYWxBcHAiOiJTdHJlYW1XZWJBcHAiLCJyZWZ lcnJhbFZpZXciOiJTaGFyZURpYWxvZyIsInJlZmVycmFsQXBwUGxhdGZvcm0iOiJXZWIiLCJy ZWZlcnJhbE1vZGUiOiJ2aWV3In19&e=f11Imp --- Essas mesmas informações se encontram no pdf em anexo.O entregável deve conter um arquivo README.md com todas as informações possíveis de como executar o projeto e o funcionamento básico dos serviços dentro dele.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Bug ou alteração pequena
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor

Prazo de Entrega: 04 de Setembro de 2023

Habilidades necessárias

Outro projetos publicados por N.