Completed

Script em Awk ou Python

Published on the June 23, 2022 in IT & Programming

About this project

Open

Olá, minha demanda é a seguinte:

Estou lidando com varios arquivos TXT bem grandes, acima de 1GB cada, e para tal estou usando alguns comandos/scripts em AWK.

Basicamente, eu junto varios arquivos em apenas 1, e executo um comando para excluir as linhas duplicadas.

O comando usado em específico para a operação de eliminar duplicados é imprimir as linhas unicas em um novo arquivo, algo como:

" awk '!i[$0]++' < ArquivoOriginal.txt > ArquivoFinal.txt "

O problema é que as linhas que quero excluir possui apenas o ID de cliente duplicado, existem outros dados dinamicos como dara e hora por exemplo, fazendo com que as linhas não fiquem 100% idênticas.

Então preciso excluir apenas as linhas que possuem o ID duplicado, que é o dado que consta na primeira coluna do layout, por exemplo: ID_UNICO:DADO1:DADO2:DADO3... ETC.

Tenho preferencia por AWK pela facilidade em usar no linux/mac.

Porém pesquisando vi que pode ser feito em Phyton tbm.

Resumindo:

Preciso de uma solução via script ou linha de comando, que lendo um arquivo TXT, linha por linha, mantenha um array associado dos IDs já lidos, e salve em novo arquivo apenas as linhas com ids únicos.

Fico a disposição para mais informações.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Small change or bug
Is this a project or a position? Project
I currently have Not applicable
Required availability As needed
Roles needed Developer

Delivery term: Not specified

Skills needed

Other projects posted by E. B.