Você deverá classificar textos escolares quanto a sua complexidade textual em um dos estágios escolares do Sistema Educacional Brasileiro: Ensino Fundamental I (do 1o ao 5o ano), Ensino Fundamental II (do 6o ao 9o ano), Ensino Médio e Ensino Superior. Para isso, você deverá usar a base de dados disponível no seguinte link:
https://github.com/gazzola/ corpus_readability_nlp_portuguese/archive/refs/heads/
master.zip
Seu objetivo será analisar qual combinação de método de aprendizado de máquina tradi- cional e técnica de representação vetorial é a mais adequada para esse problema.
Você deverá testar, no mínimo, os seguintes métodos:
1. Naive Bayes multinomial
2. Regressão Logística
3. Floresta aleatória
Para cada um dos métodos acima, você deverá testar, no mínimo, as seguintes técnicas de representação vetorial:
• Baseadas em bag-of-words: term-frequency (tf), (term frequency-inverse document fre- quency) (tf-idf) e binário;
• word embeddings: word2vec.
– Treinando com a própria base de dados
– Usando o modelo word2vec de 100 ou 300 dimensões já treinado, disponível em:
http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc.
Caso haja parâmetros sensíveis no método que você estiver analisando, utilize busca em grade para encontrar os melhores. Em todos os métodos, é esperado que a busca em grade analise também a aplicação ou não das seguintes técnicas de pré-processamento: remoção de stopwords e stemming.
Para facilitar sua organização e execução dos experimentos, sugere-se que você crie funções para cada etapa, facilitando que essas funções sejam chamadas no pipeline de experimentos.
Contexto Geral do Projeto
Detalhes e contexto geral estão adicionados no anexo.
Prazo de Entrega: 08 de Novembro de 2023