Esperando a garantia de pagamento

Mineração e normalização de dados

Publicado em 21 de Junho de 2023 dias na TI e Programação

Sobre este projeto

Aberto

Projeto para Lucas Andrade:
Escopo genérico de mineração e normalização de dados para um site de Freelancer:

1. Definição do objetivo:
  - Identificar e coletar informações relevantes de diferentes sites da internet relacionados a trabalhos freelancers.
  - Normalizar e organizar esses dados para facilitar a busca e comparação de projetos pelos usuários do site.

2. Seleção dos sites:
  - Identificar uma lista de sites populares e relevantes para freelancers, como plataformas de freelancing, fóruns, redes sociais profissionais, blogs e grupos de discussão.
  - Analisar a estrutura dos sites selecionados para entender como os dados são apresentados e como podem ser coletados.

3. Definição dos dados a serem coletados:
  - Identificar os tipos de dados relevantes para os freelancers, como título do projeto, descrição, categoria, orçamento, habilidades requeridas, prazo, localização (se aplicável), entre outros.
  - Determinar os dados adicionais a serem coletados, como nome do cliente, avaliações, número de propostas recebidas, entre outros, dependendo da disponibilidade nos sites.

4. Desenvolvimento de um web crawler:
  - Criar um programa automatizado (web crawler) para visitar os sites selecionados, percorrer as páginas relevantes e extrair os dados identificados.
  - Utilizar técnicas de web scraping para extrair os dados de forma estruturada a partir do HTML das páginas.

5. Processamento e normalização dos dados:
  - Limpar e normalizar os dados coletados, removendo informações irrelevantes ou duplicadas, corrigindo erros tipográficos e padronizando formatos.
  - Utilizar técnicas de processamento de linguagem natural (NLP) para extrair palavras-chave, categorizar os projetos e identificar informações relevantes nas descrições.

6. Armazenamento dos dados:
  - Armazenar os dados coletados em um banco de dados, utilizando um modelo adequado para a estrutura dos dados normalizados.
  - Garantir a integridade e segurança dos dados, implementando medidas adequadas de proteção.

7. Atualização recorrente dos dados:
  - Agendar a execução periódica do web crawler para visitar novamente os sites e atualizar os dados armazenados.
  - Utilizar técnicas de comparação para identificar novos projetos, projetos modificados ou removidos desde a última coleta.

8. Interface de busca e exibição de dados:
  - Desenvolver uma interface amigável para que os usuários do site de Freelancer possam buscar e visualizar os projetos normalizados.
  - Implementar recursos de filtragem, ordenação e categorização para facilitar a navegação e a comparação dos projetos.

Categoria TI e Programação
Subcategoria Data Science
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Meio período

Duração do projeto Mais do que 6 meses

Habilidades necessárias

Outro projetos publicados por M. F.