Sobre este projeto
it-programming / data-science-1
Aberto
O projeto se inicia com o entendimento dos dados contidos em uma planilha do excel (aqui denominada de planilha final), de modo que necessito que seja feita uma espécie de engenharia reversa nesse conjunto de dados da planilha final, identificando nas planilhas de origem (podem ser em cvs, json ou xml, à livre escolha do analista de dados) de onde partiram as informações ali existentes e como elas se ligaram para formar o dado final, identificando os seus padrões, extraindo insights e informações chave, que nos levem a entender como chegar naquele resultado obtido na planilha final.
O profissional deve analisar os dados, entendê-los em perspectiva e apresentar os modelos necessários a se atingir o resultado que são os dados da planilha final. É Necessário "ligar os pontos" advindos das planilhas de origem para que entendamos as nomenclaturas utilizadas, quando as situações se dão e de onde partiu cada informação, apresentando, inclusive, se for o caso, algum dado chave que não tenha conseguido encontrar e/ou integrar aos demais dados para que se chegue nos dados da planilha final.
P.S. Quando falo em fazer engenharia reversa não me refiro ao termo técnico propriamente dito, mas em pegar o resultado final e "desmontá-lo" identificando os pontos chave e indicando como e em que situações os dados de origem se agrupam para formar o resultado final.
Algumas das planilhas a serem analisadas são grandes, as maiores com 11gb, 12gb e 25g (.cvs), portanto são arquivos a serem analisados em banco de dados (pelo menos é o que eu imagino).
A técnica, linguagem e tecnologia a ser utilizada ficam completamente a critério do profissional, que poderá nos indicar a melhor alternativa.
Contexto Geral do Projeto
O objetivo do projeto é compreender o método utilizado pelos criadores da planilha final e como conseguiram chegar naquele resultado, entendendo os dados nas planilhas de origem e encontrando as situações nas quais são utilizados, indicando inclusive, caso haja, algum dado inexistente nas planilhas de origem que seriam necessários ao resultado final.
Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário
Prazo de Entrega: Não estabelecido