Sobre este projeto
it-programming / web-development
Aberto
Contexto Geral do Projeto
Desenvolver um serviço python que faz o download de pdfs em sites públicos. Ao final da execução de cada raspagem de dados o pdf deve estar lido em bytes ou o conteúdo deve estar lido com os caracteres extraídos em texto ou em screenshot legível. É Permitido e recomendado usar APIs externas, por exemplo, APIs para quebra de diferentes tipos de captcha (sistema de verificação para distinguir humanos e bots na internet). Elas devem estar integradas no projeto. Recomenda-se usar as apis 2captcha e/ou capmonster (as apis keys serão fornecidas). O serviço criado deve rodar em container docker. Recomenda-se utilizar selenium ou outra biblioteca para raspagem de dados como Beautiful Soup. Não se deve usar bibliotecas que são fortemente dependentes de interface como PyAutoGUI para controle de teclado e mouse já que isso não costuma funcionar bem em container docker. Se trata de 2 sites em que o dado precisa ser raspado, aqui os dados e vídeo indicando como fazer essa raspagem: --- Site (governo federal): https://solucoes.receita.fazenda.gov.br/Servicos/certidaointernet/ITR/ EmitirPgfn Desafio de implementação: Possui um hcaptcha escondido. Dados para preencher: nirf 62459007 --- Site (campo largo - pr): https://colombo.atende.net/?pg=autoatendimento#!/tipo/servico/valor/36/ padrao/1/load/1 Desafio de implementação: Recaptcha que é aberto dentro de uma “section” do html (uma nova janela dentro da página), recaptcha v3 dentro da página e fazer o download do pdf em uma janela que é aberta Dados para preencher: Inscrição imobiliária 03.04.026.0158.001 --- Vídeo: https://intrainnovatech-my.sharepoint.com/:v:/g/personal/cchiarelli_esgtech_com_br/ EdeO1jTLtNNOjUstItgTvDgBvP5OzuQklqUReweJ42jUTQ? nav=eyJyZWZlcnJhbEluZm8iOnsicmVmZXJyYWxBcHAiOiJTdHJlYW1XZWJBcHAiLCJyZWZ lcnJhbFZpZXciOiJTaGFyZURpYWxvZyIsInJlZmVycmFsQXBwUGxhdGZvcm0iOiJXZWIiLCJy ZWZlcnJhbE1vZGUiOiJ2aWV3In19&e=f11Imp --- Essas mesmas informações se encontram no pdf em anexo.O entregável deve conter um arquivo README.md com todas as informações possíveis de como executar o projeto e o funcionamento básico dos serviços dentro dele.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Bug ou alteração pequena
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor
Prazo de Entrega: 04 de Setembro de 2023
Habilidades necessárias