Analisando propostas

Exercício de Inteligência Artificial - Manipulação de Texto

Publicado em 21 de Novembro de 2023 dias na TI e Programação

Sobre este projeto

Aberto

Você deverá classificar textos escolares quanto a sua complexidade textual em um dos
estágios escolares do Sistema Educacional Brasileiro: Ensino Fundamental I (do 1º ao 5º
ano), Ensino Fundamental II (do 6º ao 9º ano), Ensino Médio e Ensino Superior. Para isso,
você deverá usar a base de dados disponível no seguinte link: https://github.com/gazzola/
corpus_readability_nlp_portuguese/archive/refs/heads/master.zip
Seu objetivo será analisar qual combinação de rede neural artificial e técnica de representação vetorial é a mais adequada para esse problema.
Você deverá testar, no mínimo, os seguintes métodos:
1. Perceptron multicamadas (MLP, do inglês, multilayer perceptron)
2. Long short-term memory (LSTM)
3. Long short-term memory (LSTM) bidirecional
4. Gated Recurrent Unit (GRU)
5. Gated Recurrent Unit (GRU) bidirecional
Para cada um dos métodos acima, você deverá testar, no mínimo, as seguintes técnicas de
representação vetorial:
• Word embeddings.
1. Word2vec: treinando com a própria base de dados
2. Word2vec: usando o modelo pré-treinado de 100 ou 300 dimensões, disponível em:
http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc
3. DistilBERT: usando o modelo gerado a partir do modelo BERTimbau, disponível
em: https://huggingface.co/adalbertojunior/distilbert-portuguese-cased

Para todos os modelos, você deverá fazer busca em grade para os principais hiperparâmetros (número de camadas, o número de unidades LSTM, a taxa de dropout, a função de ativação, normalização, entre outros). O critério de escolha da melhor configuração é a medida macro F1. Para facilitar sua organização e execução dos experimentos, sugere-se que você crie funções ou classes para cada etapa, facilitando que essas funções sejam chamadas no pipeline de experimentos.

Contexto Geral do Projeto

Você deverá enviar um relatório em Word, contendo: Um relatório em PDF de no máximo 6 páginas contendo os itens descritos a seguir: Descrição da metodologia que você aplicou: métodos, técnicas de representação de texto, técnicas de pré-processamento, etc. – Uma seção de resultados, apresentando uma tabela obrigatória contendo a medida macro F1 e a auc (area under the roc curve) de cada um dos métodos solicitados, conforme o exemplo mostrado na tabela 1. – Caso você ache necessário, também é permitido adicionar tabelas extras que ajudem a entender o que foi feito ou os resultados obtidos. – Será cobrada explicação dos resultados. Tente explicar motivos e razões que ajudem a explicar as diferenças entre os métodos. – Não será cobrado nenhum tipo de formatação ou o uso de referências. Um notebook para cada um dos métodos que você implementar, com nomes que ajudem a identificá-los, mas começando pela palavra main. Por exemplo, o notebook em que estão os testes com o método naive Bayes pode ter o nome main_naiveBayes.ipynb. – Também é permitido criar notebooks separados para algumas etapas independentes, tais como a análise de dados.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: 25 de Novembro de 2023