Analisando propostas

Criação de um pipeline de médio porte (150m linhas) e processamento

Publicado em 20 de Setembro de 2022 dias na TI e Programação

Sobre este projeto

Aberto

Preciso de um desenvolver com conhecimentos em Python e toolset de operações de dados distribuidas Pandas/Ray/PySpark/Airflow/nifi e/ou similares para desenvolver um etl que receberá uma massa de dados , realizará uma série de processamentos simples como acumular valores, percentual referente a uma categoria na tabela percentual de um valor referente aos demais e afins, são feitos algumas junções com outras tabelas provenientes de um banco sql server e ao final será gerado um arquivo parquet.

Contexto Geral do Projeto

O Fluxo hoje já existe e foi construido utilizando a ferramenta de pipeline Azure Data Factory, porem por limitações da ferramenta precisamos migrar a tecnologia para algo mais flexivel em termos de desenvolvimento para que o projeto possa continuar evoluindo.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: Não estabelecido

Habilidades necessárias