Completed

Exercício de Naive Bayes, Regressão Logística e Floresta Aleatória

Published on the October 31, 2023 in IT & Programming

About this project

Open

Você deverá classificar textos escolares quanto a sua complexidade textual em um dos estágios escolares do Sistema Educacional Brasileiro: Ensino Fundamental I (do 1o ao 5o ano), Ensino Fundamental II (do 6o ao 9o ano), Ensino Médio e Ensino Superior. Para isso, você deverá usar a base de dados disponível no seguinte link: https://github.com/gazzola/ corpus_readability_nlp_portuguese/archive/refs/heads/master.zip
Seu objetivo será analisar qual combinação de método de aprendizado de máquina tradi- cional e técnica de representação vetorial é a mais adequada para esse problema.
Você deverá testar, no mínimo, os seguintes métodos:

1. Naive Bayes multinomial
2. Regressão Logística
3. Floresta aleatória

Para cada um dos métodos acima, você deverá testar, no mínimo, as seguintes técnicas de representação vetorial:
• Baseadas em bag-of-words: term-frequency (tf), (term frequency-inverse document fre- quency) (tf-idf) e binário;
• word embeddings: word2vec.
– Treinando com a própria base de dados
– Usando o modelo word2vec de 100 ou 300 dimensões já treinado, disponível em: http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc.
Caso haja parâmetros sensíveis no método que você estiver analisando, utilize busca em grade para encontrar os melhores. Em todos os métodos, é esperado que a busca em grade analise também a aplicação ou não das seguintes técnicas de pré-processamento: remoção de stopwords e stemming.
Para facilitar sua organização e execução dos experimentos, sugere-se que você crie funções para cada etapa, facilitando que essas funções sejam chamadas no pipeline de experimentos.

Project overview

Detalhes e contexto geral estão adicionados no anexo.

Category IT & Programming
Subcategory Data Science
Project size Small
Is this a project or a position? Project
Required availability As needed

Delivery term: November 08, 2023

Other projects posted by S. L.