About this project
it-programming / data-science-1
Open
Objetivo:
Aplicar aprendizado de máquina;
Temos dois projetos de dados, o NewsCloud e o Hemeroteca Política Externa Brasileira (HPEB), que são bases de dados que reúnem notícias de jornais. A HPEB é uma seleção de quase 30 mil notícias feita manualmente por um professor até o ano de 2010. Nosso objetivo é aplicar o aprendizado de máquina para construir um algoritmo que continue a seleção a partir de 2011 com base na seleção feita pelo professor;
Enquanto a base de dados do projeto HPEB é uma seleção restrita de notícias e servirá como base do aprendizado de máquina pretendido, a base de dados do projeto NewsCloud, contém notícias integrais dos principais jornais brasileiros, será a fonte para a seleção de notícias posteriores a 2011 (esta base também pode fornecer dados anteriores a esta data);
Os dados do NewsCloud estão armazenados em arquivos JSON;
Os metadados da HPEB estão em arquivos JSON e as notícias em PDFs pesquisáveis
## Sugestões de Bibliotecas:
Avaliar a Otimização do OCR (Layout Parser)
Aprendizado de máquina (scikit-learn, pycaret)
Category IT & Programming
Subcategory Data Science
Project size Medium
Is this a project or a position? Project
Required availability As needed
Delivery term: January 27, 2023
Skills needed