Crawler de diarios da justica - Procura-se Freelancer

Sobre este projeto

Aberto

Crawler de diários da justiça.
O crawler deve ser capaz de acessar, diariamente, os diários dos tribunais listados em anexo (alguns são em html, outros em pdf), executando as seguintes tarefas:
1. Ler uma tabela SQL com os termos de pesquisa que deverão ser buscados em cada diário (tabela criada por nós, podendo ser ajustada para facilitar o desenvolvimento do crawler);
Exemplo da tabela “BUSCAR_TERMOS”:
id=X, tipodebusca=simples, termo=teste, diario=TODOS.

2. Buscar termo por termo (obs.: Algumas buscas são simples — uma palavra —, outras são complexas, por exemplo, identificar a incidência simultânea de três palavras num “raio” de 50 palavras/caracteres, ou identificar uma sequência determinada de palavras separadas por no máximo 50 palavras/caracteres entre si, etc. — A combinar forma de expressão das buscas na tabela);
3. Recortar, em plain text, os resultados da busca de modo contextual (por exemplo, recortar todo o parágrafo onde a palavra-chave foi encontrada, de modo a possibilitar a compreensão do texto para o leitor do recorte);
4.

Para diários em pdf, identificar e salvar em outro pdf a(s) página(s) em que o(s) termo(s) foi(ram) encontrado(s); para diários em html, identificar o link da página onde localizado;
5. Fazer um sql insert em nossa tabela (criada por nós, podendo ser ajustada para facilitar o desenvolvimento do crawler) com o resultado completo de cada busca:
exemplo da tabela “termos_encontrados”:

id=x, termo=teste, diario=tjsp, data=12/07/2019, tipo=pdf, link=/path/to/paginas_onde_encontrado.pdf, recorte=“texto do recorte”

id=Y, termo=teste, diario=tjes, data=12/07/2019, tipo=html, link=http://www…/, recorte=“texto do recorte”

6. O crawler deverá também fazer sql insert na nossa tabela de log (que pode ser ajustada) com os status de busca em cada tribunal, retornando inclusive o horário em que a busca diária foi iniciada/finalizada, e alertando, com status de erro, quando não conseguir acessar o diário ou quando identificar alguma mudança em sua estrutura que comprometa a busca dos dados;

observações importantes:
- o script deve ser capaz de baixar cada diário apenas uma vez por dia, executando em seguida, no modelo “for each”, todas as buscas que constem da tabela, retornando individualmente os resultados em sql insert, conforme explicado acima.

- Não é necessário backend para configuração dos termos e parâmetros de busca, já que estes constarão em nossa tabela sql;
- não é necessário frontend;

anexo i – diários

tribunais superiores:
stf - http://www.stf.jus.br/portal/diarioJustica/verDiarioAtual.asp
STJ - https://ww2.stj.jus.br/processo/dj/init
TST - está na página principal - http://tst.jus.br

TRFS:

TRF1 (Abrange os estados: ac, am, ap, ba, df, go, ma, mg, mt, pa, pi, ro, rr): https://edj.trf1.jus.br/edj/handle/123/3/discover?filtertype_2=dateIssued&filter_relational_operator_2=contains&filter_2=&submit_apply_filter=Aplicar&query=&rpp=17&sort_by=dc.date.issued_dt&order=desc

TRF2 (Abrange os estados: es, rj):
http://www10.Trf2.jus.br/consultas/?entqr=3&lr=lang_pt&ie=utf-8&oe=utf-8&adv=1&ulang=&access=p&entqrm=0&entsp=a&wc=200&wc_mc=0&ud=1&filter=0&getfields=*&q=&client=v2_index&proxystylesheet=v2_index&site=v2_dje&sort=date:d:s:d1&base=dje

trf3 (abrange os estados: ms, sp):
http://web.trf3.jus.br/diario/Consulta

TRF4 (Abrange os estados: pr, rs, sc):
https://www.trf4.jus.br/trf4/diario/consulta_diario.php

TRF5 (Abrange os estados: al, ce, pb, pe, rn, se):
https://www4.trf5.jus.br/diarioeletinternet/

Trts – todas as regiões:
https://dejt.jt.jus.br/dejt/f/n/diariocon

tribunais estaduais:
tjsp - https://dje.tjsp.jus.br/cdje/index.do
TJRJ - https://www3.tjrj.jus.br/consultadje/
TJMG - https://www.tjmg.jus.br/portal-tjmg/dje/#!
TJPR – está na página principal - https://www.tjpr.jus.br/
TJRS - http://www.tjrs.jus.br/busca/?tb=dj
TJBA - https://diario.tjba.jus.br/diario/internet/pesquisar.wsp
TJSC - http://busca.tjsc.jus.br/dje-consulta/#/main
TJPE - https://www.tjpe.jus.br/dje/djeletronico
TJDFT - https://pesquisadje.tjdft.jus.br/
TJGO - https://www.tjgo.jus.br/index.php/processos/dj-eletronico
TJMT - http://www.tjmt.jus.br/dje
TJCE - https://esaj.tjce.jus.br/cdje/index.do;jsessionid=98D01F1BFCB56C50E6365436C5F3E5A3.cdje1
TJMA - http://www.tjma.jus.br/inicio/diario
TJES - https://sistemas.tjes.jus.br/ediario/
TJPA- https://dje.tjpa.jus.br/ClientDJEletronico/app/home.html
TJMS- https://esaj.tjms.jus.br/cdje/index.do;jsessionid=FFA756069B22ED146CA20C975404B8CB.cdje2
TJRN - https://diario.tjrn.jus.br/djonline/inicial.jsf
TJPB - https://app.tjpb.jus.br/dje/paginas/diario_justica/publico/buscas.jsf
TJAM - https://consultasaj.tjam.jus.br/cdje/index.do
TJRO - https://www.tjro.jus.br/diario_oficial/
Tjse - http://www.diario.tjse.jus.br/diario/internet/pesquisar.wsp?tmp.origem=externa
tjpi - http://www.tjpi.jus.br/transparencia/diarios/
TJAL - https://www2.tjal.jus.br/cdje/index.do
TJTO - https://wwa.tjto.jus.br/diario/pesquisa
TJAP - http://tucujuris.tjap.jus.br/tucujuris/pages/consultar-dje/consultar-dje.html
TJAC - https://diario.tjac.jus.br/edicoes.php
TJRR - http://diario.tjrr.jus.br/diario.php

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor

Prazo de Entrega: Não estabelecido

Habilidades necessárias

MySQL

Crawler de Diários da Justiça

Sobre este projeto

it-programming / web-development

Aberto