Analisando propostas

Além das palavras: Investigação da efcácia da análise de sentimentos como ferramenta de interpretação

Publicado em 06 de Março de 2024 dias na TI e Programação

Sobre este projeto

Aberto

O objetivo principal desta pesquisa é avaliar a eficácia dos métodos de processamento de linguagem natural, mais precisamente a análise de sentimentos,em frases  irônicas e ambíguas. Para alcançar esse objetivo, será coletada uma base de dados obtida pela Api do X, Por meio da aplicação de técnicas de processamento de NPL, como a análise de sentimentos baseada em regras, aprendizado de máquina e modelos de linguagem, esta pesquisa visa descobrir se é possível decifrar com precisão as nuances da linguagem online e classificar as emoções expressas, mesmo quando elas estão disfarçadas.

Contexto Geral do Projeto

Possuo a base de dados crua de tweets necessário: Os dados brutos coletados passarão por um pré-processamento, com o objetivo de prepará-los para a análise. Envolve as seguintes etapas: ● Remoção de Dados Irrelevantes: A remoção de dados irrelevantes na pesquisa é realizada por meio de um processo automatizado usando algoritmos de processamento de linguagem natural (NLP). Inicialmente, todos os tweets relevantes serão coletados,por meio de API. Em seguida, serão aplicados critérios definidos para identificar dados irrelevantes, como informações pessoais sensíveis ou conteúdo fora do escopo da pesquisa. Envolvendo a busca por palavras-chave específicas ou a detecção de padrões. A validação será feita manualmente, examinando todos os tweets. O processo é aprimorado continuamente, ajustando critérios e modelos,documentando todas as remoções para garantir transparência e integridade na pesquisa. ● Limpeza de Texto: Os tweets foram submetidos à remoção de caracteres especiais, emojis, links e menções a usuários. ● Tokenização: Cada tweet foi dividido em tokens, representando palavras ou grupos de palavras. ● Remoção de Stopwords: Foram eliminadas as palavras comuns que não contribuem significativamente para a análise de sentimentos. Três métodos serão aplicados aos dados pré-processados: ● tf-idf (term frequency-inverse document frequency): segundo manning, raghavan e schütze (2008), o método é utilizado para calcular a importância de cada termo nos tweets em relação ao conjunto de dados, e permite identificar quais palavras ou frases são mais relevantes na expressão. ● Naive Bayes: O classificador foi empregado para categorizar os tweets em classes, como positivo, negativo ou neutro. Este método é baseado em probabilidade e assume independência entre as palavras, sendo adequado para análise de textos curtos. Para Bishop (2006) é um algoritmo de classificação probabilístico utilizado em aprendizado de máquina e processamento de linguagem natural, sendo conhecido por sua simplicidade e eficácia em tarefas de classificação de texto. ● Support Vector Machine (SVM): Utilizado como outro classificador para a tarefa de análise de sentimentos. Este método visa encontrar um hiperplano de separação ótimo entre as classes, levando em consideração a complexidade das relações entre os termos nos tweets. São um poderoso conjunto de algoritmos de aprendizado de máquina usados tanto em problemas de classificação quanto em regressão. Elas são conhecidas por sua eficácia em lidar com conjuntos de dados complexos e alta dimensionalidade (Bishop, 2006). 4.3 Avaliação e Validação Realizada por meio da construção de matrizes de confusão, que permitem a análise de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos para cada classe de sentimento. Além disso, métricas de desempenho, como precisão, recall, F1-score e acurácia, serão calculadas para cada um dos métodos, é uma tabela usada em análise estatística e aprendizado de máquina. James,Witten, e Hastie (2013) comparam as previsões do modelo com os resultados reais e fornece uma visão detalhada de como o modelo está classificando as instâncias em diferentes classes e é especialmente útil para avaliar o desempenho em problemas de classificação.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: 25 de Março de 2024