Sobre este projeto
it-programming / data-science-1
Aberto
Objetivo:
Aplicar aprendizado de máquina;
Temos dois projetos de dados, o NewsCloud e o Hemeroteca Política Externa Brasileira (HPEB), que são bases de dados que reúnem notícias de jornais. A HPEB é uma seleção de quase 30 mil notícias feita manualmente por um professor até o ano de 2010. Nosso objetivo é aplicar o aprendizado de máquina para construir um algoritmo que continue a seleção a partir de 2011 com base na seleção feita pelo professor;
Enquanto a base de dados do projeto HPEB é uma seleção restrita de notícias e servirá como base do aprendizado de máquina pretendido, a base de dados do projeto NewsCloud, contém notícias integrais dos principais jornais brasileiros, será a fonte para a seleção de notícias posteriores a 2011 (esta base também pode fornecer dados anteriores a esta data);
Os dados do NewsCloud estão armazenados em arquivos JSON;
Os metadados da HPEB estão em arquivos JSON e as notícias em PDFs pesquisáveis
## Sugestões de Bibliotecas:
Avaliar a Otimização do OCR (Layout Parser)
Aprendizado de máquina (scikit-learn, pycaret)
Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Médio
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário
Prazo de Entrega: 27 de Janeiro de 2023
Habilidades necessárias