Analisando propostas

Desafio: Comparação de Desempenho entre Apache Hadoop e Apache Spark na Análise de Dados do Novo Bolsa Família

Publicado em 27 de Abril de 2024 dias na TI e Programação

Sobre este projeto

Aberto

Desafio: Comparação de Desempenho entre Apache Hadoop e Apache Spark na Análise de Dados do Novo Bolsa Família


Sistemas Distribuídos / Nuvem Computacional

Contexto

O Novo Bolsa Família é uma iniciativa do Governo Federal destinada a apoiar famílias em condições de pobreza e extrema pobreza. O Portal da Transparência disponibiliza dados sobre os pagamentos do programa em formatos CSV, oferecendo um panorama detalhado dos auxílios financeiros concedidos. A exploração desses dados pode revelar padrões importantes na distribuição geográfica dos recursos e nos perfis dos beneficiários mais assistidos em cada estado.

Acesse os Dados Aqui

Desafio Proposto

O desafio consiste em desenvolver uma solução analítica para processar os dados do Novo Bolsa Família, com o intuito de apurar quais Unidades Federativas (UFs) recebem os maiores montantes do benefício, além de identificar os 100 primeiros beneficiários de cada estado com os valores mais elevados recebidos. Os alunos devem projetar e implementar duas versões da solução, uma utilizando Apache Hadoop e outra com Apache Spark, com foco na eficiência no manejo de grandes volumes de dados. Deve-se empregar estratégias como divisão e conquista e processamento paralelo.

A execução das soluções deve ser feita preferencialmente em ambientes de nuvem de grandes provedores, como Amazon AWS, Microsoft Azure, Google Cloud, entre outros. Posteriormente, é necessário elaborar um relatório de desempenho que compare as duas ferramentas, evidenciando métricas de eficiência, escalabilidade, tempo de execução e custo.

Dicionário de Dados

Para uma compreensão aprofundada e uma abordagem precisa do problema, os alunos precisam se familiarizar com o dicionário de dados dos arquivos CSV:

MÊS competência: ano/mês a que se refere a parcela, no formato aaaamm.
MÊS referência: mês da folha de pagamento, no formato aaaamm.
UF: Sigla da Unidade Federativa do beneficiário do Novo Bolsa Família.
Código município siafi: código do município do beneficiário no sistema integrado de administração financeira (siafi).
nome município: nome do município do beneficiário.
cpf favorecido: número do cadastro de pessoas físicas (cpf) do beneficiário, caso possua.
nis favorecido: número de identificação social (nis) do beneficiário, caso possua.
nome favorecido: nome do beneficiário.
data disponibilização: data em que a parcela foi disponibilizada.
valor parcela: valor da parcela do benefício.
Entregáveis

Preparar e apresentar os seguintes entregáveis até a data limite de 26/04/2024. Esta data está alinhada com uma sprint de 21 dias, proporcionando tempo suficiente para a elaboração, execução e análise dos resultados das ferramentas Apache Hadoop e Apache Spark. Os entregáveis incluem:

Relatório de Desempenho Comparativo: Este documento deve detalhar a comparação entre Apache Hadoop e Apache Spark com base em várias métricas. Especificamente, o relatório deve abordar:
Eficiência: Avaliação do desempenho das ferramentas em termos de processamento de dados e otimização de recursos.
Escalabilidade: Análise da capacidade das ferramentas de manejar aumentos significativos no volume de dados sem perda proporcional de desempenho.
Tempo de Execução: Comparação direta do tempo necessário para completar as tarefas designadas por cada ferramenta.
Uso de CPU: Avaliação do consumo de recursos de CPU por cada ferramenta durante a execução das tarefas, proporcionando insights sobre a eficiência e a sustentabilidade do uso de recursos.
Infraestrutura: Fornecer detalhes técnicos da infraestutura utilizada.
Código Fonte: Fornecer o código fonte de ambas as soluções implementadas, usando Apache Hadoop e Apache Spark. O código deve ser acompanhado por comentários explicativos que facilitem a compreensão das estratégias de implementação adotadas.
Relato de Desafios e Dificuldades: Uma seção dedicada no relatório deve descrever os principais desafios e dificuldades encontrados durante a realização do projeto. Isso inclui problemas técnicos, questões de otimização, desafios de implementação e quaisquer outros obstáculos. Esta seção deve também discutir as soluções ou abordagens adotadas para superar tais dificuldades.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Não se aplica
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor

Prazo de Entrega: 05 de Maio de 2024

Habilidades necessárias