Analisando propostas

Experimentos Na Plataforma "Hadoop" e "Mahout"

Publicado em 29 de Novembro de 2023 dias na TI e Programação

Sobre este projeto

Aberto

Preciso com urgência a resolução dessa atividade da minha faculdade. Infelizmente estou sem tempo para realizar. Segue a solicitação abaixo.

Como observaram, essa unidade não possui atividades de autocorreção. É Proposta uma atividade mais prática, considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.
A ideia da atividade é vocês executarem o algoritmo kmeans usando uma das pastas com os textos, e analisar qual o resultado do algoritmo. Observem os clusters gerados, e se de fato os assuntos possuem relação entre si. Caso queiram utilizar outras bases de textos, a sequência de comandos deverá funcionar.
Segue o exemplo e sequência de comandos utilizada:
Base Reuters
C50train
hadoop fs -copyFromLocal C50/ /
./Mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential
./Mahout seq2sparse -i /seqreuters -o /train-sparse
./Mahout kmeans -i /train-sparse/tfidf-vectors/ -c /kmeans-train-clusters -o /train-clusters-final -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -x 10 -k 10 -ow
./Mahout clusterdump -d /train-sparse/dictionary.file-0 -dt sequencefile -i /train-clusters-final/clusters-10-final -n 10 -b 100 -o ~/saida_clusters.txt -p /train-clusters-final/clustered-points
Lembrando que vocês deverão trocar alguns dos parâmetros aqui listados, como pastas e path dos arquivos e bases.

Contexto Geral do Projeto

O objetivo desse projeto é a avaliação da faculdade que vale 10 pontos, então preciso de responsabilidade e profissionalismo.

Categoria TI e Programação
Subcategoria Outros
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Não se aplica
Disponibilidade requerida Conforme necessário

Prazo de Entrega: 05 de Dezembro de 2023

Habilidades necessárias

Outro projetos publicados por A. F.