Realizado

Exercício de Naive Bayes, Regressão Logística e Floresta Aleatória

Publicado em 31 de Outubro de 2023 dias na TI e Programação

Sobre este projeto

Aberto

Você deverá classificar textos escolares quanto a sua complexidade textual em um dos estágios escolares do Sistema Educacional Brasileiro: Ensino Fundamental I (do 1o ao 5o ano), Ensino Fundamental II (do 6o ao 9o ano), Ensino Médio e Ensino Superior. Para isso, você deverá usar a base de dados disponível no seguinte link: https://github.com/gazzola/ corpus_readability_nlp_portuguese/archive/refs/heads/master.zip
Seu objetivo será analisar qual combinação de método de aprendizado de máquina tradi- cional e técnica de representação vetorial é a mais adequada para esse problema.
Você deverá testar, no mínimo, os seguintes métodos:

1. Naive Bayes multinomial
2. Regressão Logística
3. Floresta aleatória

Para cada um dos métodos acima, você deverá testar, no mínimo, as seguintes técnicas de representação vetorial:
• Baseadas em bag-of-words: term-frequency (tf), (term frequency-inverse document fre- quency) (tf-idf) e binário;
• word embeddings: word2vec.
– Treinando com a própria base de dados
– Usando o modelo word2vec de 100 ou 300 dimensões já treinado, disponível em: http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc.
Caso haja parâmetros sensíveis no método que você estiver analisando, utilize busca em grade para encontrar os melhores. Em todos os métodos, é esperado que a busca em grade analise também a aplicação ou não das seguintes técnicas de pré-processamento: remoção de stopwords e stemming.
Para facilitar sua organização e execução dos experimentos, sugere-se que você crie funções para cada etapa, facilitando que essas funções sejam chamadas no pipeline de experimentos.

Contexto Geral do Projeto

Detalhes e contexto geral estão adicionados no anexo.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: 08 de Novembro de 2023

Outro projetos publicados por S. L.