Sobre este projeto
it-programming / data-science-1
Aberto
Projeto para Lucas Andrade:
Escopo genérico de mineração e normalização de dados para um site de Freelancer:
1. Definição do objetivo:
- Identificar e coletar informações relevantes de diferentes sites da internet relacionados a trabalhos freelancers.
- Normalizar e organizar esses dados para facilitar a busca e comparação de projetos pelos usuários do site.
2. Seleção dos sites:
- Identificar uma lista de sites populares e relevantes para freelancers, como plataformas de freelancing, fóruns, redes sociais profissionais, blogs e grupos de discussão.
- Analisar a estrutura dos sites selecionados para entender como os dados são apresentados e como podem ser coletados.
3. Definição dos dados a serem coletados:
- Identificar os tipos de dados relevantes para os freelancers, como título do projeto, descrição, categoria, orçamento, habilidades requeridas, prazo, localização (se aplicável), entre outros.
- Determinar os dados adicionais a serem coletados, como nome do cliente, avaliações, número de propostas recebidas, entre outros, dependendo da disponibilidade nos sites.
4. Desenvolvimento de um web crawler:
- Criar um programa automatizado (web crawler) para visitar os sites selecionados, percorrer as páginas relevantes e extrair os dados identificados.
- Utilizar técnicas de web scraping para extrair os dados de forma estruturada a partir do HTML das páginas.
5. Processamento e normalização dos dados:
- Limpar e normalizar os dados coletados, removendo informações irrelevantes ou duplicadas, corrigindo erros tipográficos e padronizando formatos.
- Utilizar técnicas de processamento de linguagem natural (NLP) para extrair palavras-chave, categorizar os projetos e identificar informações relevantes nas descrições.
6. Armazenamento dos dados:
- Armazenar os dados coletados em um banco de dados, utilizando um modelo adequado para a estrutura dos dados normalizados.
- Garantir a integridade e segurança dos dados, implementando medidas adequadas de proteção.
7. Atualização recorrente dos dados:
- Agendar a execução periódica do web crawler para visitar novamente os sites e atualizar os dados armazenados.
- Utilizar técnicas de comparação para identificar novos projetos, projetos modificados ou removidos desde a última coleta.
8. Interface de busca e exibição de dados:
- Desenvolver uma interface amigável para que os usuários do site de Freelancer possam buscar e visualizar os projetos normalizados.
- Implementar recursos de filtragem, ordenação e categorização para facilitar a navegação e a comparação dos projetos.
Categoria TI e Programação
Subcategoria Data Science
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Meio período
Duração do projeto Mais do que 6 meses
Habilidades necessárias