Sobre este projeto
it-programming / data-science-1
Aberto
Contexto Geral do Projeto
Possuo a base de dados crua de tweets necessário: Os dados brutos coletados passarão por um pré-processamento, com o objetivo de prepará-los para a análise. Envolve as seguintes etapas: ● Remoção de Dados Irrelevantes: A remoção de dados irrelevantes na pesquisa é realizada por meio de um processo automatizado usando algoritmos de processamento de linguagem natural (NLP). Inicialmente, todos os tweets relevantes serão coletados,por meio de API. Em seguida, serão aplicados critérios definidos para identificar dados irrelevantes, como informações pessoais sensíveis ou conteúdo fora do escopo da pesquisa. Envolvendo a busca por palavras-chave específicas ou a detecção de padrões. A validação será feita manualmente, examinando todos os tweets. O processo é aprimorado continuamente, ajustando critérios e modelos,documentando todas as remoções para garantir transparência e integridade na pesquisa. ● Limpeza de Texto: Os tweets foram submetidos à remoção de caracteres especiais, emojis, links e menções a usuários. ● Tokenização: Cada tweet foi dividido em tokens, representando palavras ou grupos de palavras. ● Remoção de Stopwords: Foram eliminadas as palavras comuns que não contribuem significativamente para a análise de sentimentos. Três métodos serão aplicados aos dados pré-processados: ● tf-idf (term frequency-inverse document frequency): segundo manning, raghavan e schütze (2008), o método é utilizado para calcular a importância de cada termo nos tweets em relação ao conjunto de dados, e permite identificar quais palavras ou frases são mais relevantes na expressão. ● Naive Bayes: O classificador foi empregado para categorizar os tweets em classes, como positivo, negativo ou neutro. Este método é baseado em probabilidade e assume independência entre as palavras, sendo adequado para análise de textos curtos. Para Bishop (2006) é um algoritmo de classificação probabilístico utilizado em aprendizado de máquina e processamento de linguagem natural, sendo conhecido por sua simplicidade e eficácia em tarefas de classificação de texto. ● Support Vector Machine (SVM): Utilizado como outro classificador para a tarefa de análise de sentimentos. Este método visa encontrar um hiperplano de separação ótimo entre as classes, levando em consideração a complexidade das relações entre os termos nos tweets. São um poderoso conjunto de algoritmos de aprendizado de máquina usados tanto em problemas de classificação quanto em regressão. Elas são conhecidas por sua eficácia em lidar com conjuntos de dados complexos e alta dimensionalidade (Bishop, 2006). 4.3 Avaliação e Validação Realizada por meio da construção de matrizes de confusão, que permitem a análise de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos para cada classe de sentimento. Além disso, métricas de desempenho, como precisão, recall, F1-score e acurácia, serão calculadas para cada um dos métodos, é uma tabela usada em análise estatística e aprendizado de máquina. James,Witten, e Hastie (2013) comparam as previsões do modelo com os resultados reais e fornece uma visão detalhada de como o modelo está classificando as instâncias em diferentes classes e é especialmente útil para avaliar o desempenho em problemas de classificação.
Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário
Prazo de Entrega: 25 de Março de 2024