Sobre este projeto
it-programming / web-development
Aberto
Esse projeto consiste em extrair informações públicas de um site (scraping/data mining) e formatá-las para que possam ser filtradas por itens positivos, e negativar os itens que não queremos.
O desafio parte 1
o desafio é minerar (em tempo real) todos os produtos de todas as páginas, com as respectivas fotos e tabelas descritivas de forma ordenada.
O desafio parte 2
criar filtros qualitativos para as categorias de produtos. Precisamos de inteligência de máquina.
Já fizemos a versão BETA usando Google Sheets. Em teoria foi fácil filtrar para tentar separar o joio do trigo, mas na prática esse filtro eliminou muitos produtos que contém características que queremos.
Minha ideia: Classificar cada lote usando algumas das palavras chaves da descrição e atribuir peso positivo para as palavras que queremos e peso negativo para as que não queremos. Dessa forma, teremos uma ordenação de lotes por relevância, priorizando o tempo de análise pela importância do lote.
Desafio parte 3
criar uma interface amigável que possibilite visualizar os lotes (e as fotos) ordenado por relevância, e selecionar com um clique os que queremos.
Esses selecionados (também em ordem de relevância), deverão ir para um documento que possibilite impressão.
Os problemas
1) o site de onde puxamos os dados é instável e cai a todo momento.
2) A lista de produtos muda de tempos em tempos, sempre diminuindo de tamanho.
3) Os itens filtrados serão analisados em pouco tempo por humanos.
Por isso é importante que exista uma inteligência por trás, que classifique-os em ordem de importância.
Histórico do que já foi feito
quando peguei o projeto o site estava fora do ar por causa do excesso de visitas, e só tínhamos um pdf para trabalhar.
Todo o trabalho que fiz foi transformar o pdf em xls e tentar padronizar os dados o máximo possível (o que tomou a maior parte do tempo que eu não tinha) para tentar filtrar as categorias de produtos que queremos e eliminar as que não queremos.
Mesmo dando para trazer alguma relevância, foi inútil para a equipe que iria utilizar os dados pois:
1) Demorou muito fazer toda essa modelagem
2) Não tinha as fotos, obrigado a equipe a entrar no site (que estava instável) e digitar ID para ver a foto do lote.
3) Meus dados ficaram desatualizados pois a mudou e não deu tempo de modelar os dados novos.
4) Desenvolvi um aplicação em Google Sheets, que já entrava no arquivo pré formatada e com foto. Mas o filtro do Sheets é bem limitado. Queremos melhorar isso.
Sonho:
Ter um web site, com usuário e senha para que possamos acessar esses dados já capturados e modelados, e que possamos escolher quais itens queremos. E também possamos enviá-los em uma lista para impressão.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Experiência nesse tipo de projeto Sim (Eu já gerenciei esse tipo de projeto)
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor
Prazo de Entrega: 26 de Julho de 2019
Habilidades necessárias