Analisando propostas

Extração e organização de dados de Pdfs e htmls

Publicado em 08 de Setembro de 2019 dias na TI e Programação

Sobre este projeto

Aberto

O trabalho consiste em duas atividades, que podem ser feitas sequencialmente ou de forma independente, aplicadas a um conjunto de arquivos html e/ou PDF que foram extraídos de páginas dos Diários Oficiais no site www.escavador.com . Especificamente:

- (preparação necessária, trivial): extrair os textos dos arquivos e salvar em txt.

- Atividade 1: Reorganizar os textos dos arquivos, identificando e separando as publicações dentro de cada um;

- Atividade 2: Varrer os arquivos, reconhecer certas informações e montar uma base de dados a ser utilizada em pesquisa para tese de doutorado.
As informações são de alunos concluintes do Ensino Médio e, em geral, estão da seguinte forma: “O Diretor do Colégio xxx, mantido pela xxx, município xxx, publica a relação dos concluintes ensino médio ano xxxx: nome1, nome2, ..., NomeN.”  Há algumas variações em cima desse padrão, e por isso, o uso de expressões regulares é necessário.
Gostaríamos que o código fosse feito em python ou em R.
Como produto, queremos: (a) o código utilizado e (b) uma base de dados em CSV com cada linha contendo um estudante e colunas contendo (i) nome, (ii) nome da escola, (iii) modalidade de ensino, (iv) ano de conclusão, (v) data da publicação e algumas outras variáveis que serão encontradas no texto.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Funções necessárias Desenvolvedor

Prazo de Entrega: 22 de Setembro de 2019

Habilidades necessárias