A proposta desse trabalho é analisar as informações dos sites colaborativos Terra, O Globo e G1, respectivamente conhecidos por ‘Vc repórter’, ‘Eu repórter’ e ‘Vc no G1’ em comparação com as informações do Jornal Nacional.
Como se trata de dois veículos de comunicação diferentes, a análise comparativa será apenas da parte textual dos veículos. Assim, serão comparadas informações dos 3 sites de conteúdo colaborativo, que são:
http://g1.globo.com/vc-no-g1/ ;
http://oglobo.globo.com/eu-reporter/ e
http://vcreporter.terra.com.br/ com o conteúdo do Jornal Nacional, disponível em:
http://g1.globo.com/jornal-nacional/.
Nesse sentido, preciso de um programa que me possibilite utilizar palavras-chave ou expressões que identifique informações semelhantes e também que gere um percentual de palavras e expressões idênticas utilizada nos textos comparados.
A proposta é que a cada dia seja coletado em cada um dos sites, o conteúdo postado e assim seja criado um banco de dados com essas informações. O mesmo procedimento deve ser feito com o JN. Vale ressaltar que informações como: data, horário, manchete, chamada, chamada de bloco e escalada são informações relevantes que não devem ser descartadas.
Preferencialmente que se desenvolva em phyton
Delivery term: Not specified