Script em awk ou phyton - Procura-se Freelancer

Sobre este projeto

Aberto

Olá, minha demanda é a seguinte:

Estou lidando com varios arquivos TXT bem grandes, acima de 1GB cada, e para tal estou usando alguns comandos/scripts em AWK.

Basicamente, eu junto varios arquivos em apenas 1, e executo um comando para excluir as linhas duplicadas.

O comando usado em específico para a operação de eliminar duplicados é imprimir as linhas unicas em um novo arquivo, algo como:

" awk '!i[$0]++' < ArquivoOriginal.txt > ArquivoFinal.txt "

O problema é que as linhas que quero excluir possui apenas o ID de cliente duplicado, existem outros dados dinamicos como dara e hora por exemplo, fazendo com que as linhas não fiquem 100% idênticas.

Então preciso excluir apenas as linhas que possuem o ID duplicado, que é o dado que consta na primeira coluna do layout, por exemplo: ID_UNICO:DADO1:DADO2:DADO3... ETC.

Tenho preferencia por AWK pela facilidade em usar no linux/mac.

Porém pesquisando vi que pode ser feito em Phyton tbm.

Resumindo:

Preciso de uma solução via script ou linha de comando, que lendo um arquivo TXT, linha por linha, mantenha um array associado dos IDs já lidos, e salve em novo arquivo apenas as linhas com ids únicos.

Fico a disposição para mais informações.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Bug ou alteração pequena
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Não se aplica
Disponibilidade requerida Conforme necessário
Funções necessárias Desenvolvedor

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Linux Python JavaScript MySQL PHP

Script em Awk ou Python

Sobre este projeto

it-programming / web-development

Aberto

Outro projetos publicados por E. B.