Analisando propostas

Projeto de programação de script para automação de extração de texto com Ocr e seleção de conteúdo

Publicado em 06 de Julho de 2024 dias na TI e Programação

Sobre este projeto

Aberto

Estou procurando um freelancer especializado em programação para desenvolver uma solução automatizada de extração de texto utilizando OCR e seleção de conteúdo relevante. O projeto consiste em extrair texto de 112 arquivos PDF provenientes de minha revisão bibliográfica e filtrar conteúdo específico relacionado a técnicas respiratórias e cuidados com a saúde respiratória. O público-alvo inclui profissionais que utilizam extensivamente a voz em suas atividades, como professores, advogados, dubladores, locutores, radialistas, apresentadores, jornalistas, repórteres, palestrantes, pastores e padres, vendedores, atendentes de telemarketing, atores, cantores e afins.

Requisitos:

Experiência comprovada em Python.
Conhecimento em bibliotecas de OCR, como Tesseract.
Experiência em processamento de linguagem natural (NLP) utilizando bibliotecas como spaCy e NLTK.
Habilidade para filtrar e selecionar conteúdo relevante com base em palavras-chave fornecidas.
Entrega de código bem documentado e funcional.


Detalhes do Projeto:
Objetivo: Automatizar a extração e seleção de conteúdo relevante dos arquivos PDF fornecidos.
Entrada: 112 arquivos em pdf
Saída: Textos extraídos com seleção de conteúdo relevante de acordo com a temática especificada.

Palavras-chave para Filtragem: Respiração, técnicas respiratórias, inspiração, expiração, fonação, canto, exercícios respiratórios, saúde respiratória, saúde e bem-estar vocal, comunicação eficaz, aparelho respiratório, aparelho fonador, músculos respiratórios

Prazo: 15 de julho de 2024 (negociável)

Orçamento: R$1000,00 (negociável)

Se você tem as habilidades necessárias e está interessado neste projeto, por favor, envie sua proposta incluindo exemplos de trabalhos anteriores e uma estimativa de tempo para conclusão.

Obrigado!

Contexto Geral do Projeto

Estou em busca de um freelancer especializado em programação para desenvolver uma solução automatizada que me permita gerenciar a extração de conteúdo relevante de arquivos PDF. Esses arquivos fazem parte de uma revisão bibliográfica que estou realizando para montar meu primeiro curso online. Requisitos técnicos: uso de OCR, Python, NLP, etc.). Estou buscando alguém também com experiência em bibliotecas como Tesseract, spaCy, NLTK, entre outras. Segue abaixo uma sugestão de tarefas e script e comandos ofertados pelo chat gpt4, para melhor ilustração da minha necessidade. ### Passos para Automatizar a Extração de Texto com OCR e Seleção de Conteúdo: 1. **Preparar o Arquivo**: Certifique-se de que o arquivo está em um formato legível, como PDF. 2. **Usar uma Ferramenta de OCR**: - Utilize uma ferramenta como Tesseract (uma biblioteca de ocr de código aberto) para extrair texto das imagens ou das páginas do pdf. - Você pode usar scripts em Python para automatizar esse processo. 3. **Filtragem e Seleção de Conteúdo**: - Uma vez extraído o texto, use algoritmos de processamento de linguagem natural (NLP) para filtrar e selecionar os textos relevantes ao seu curso. - Pode-se usar bibliotecas como Spacy, nltk, ou até mesmo a api do gpt-4 para ajudar na seleção do conteúdo relevante. ### Exemplo de Automação com Python #### 1. Instalar Dependências: Primeiro, você precisa instalar algumas bibliotecas em Python: ```bash pip install pytesseract pdf2image nltk spacy ``` #### 2. Código para Extração e Seleção de Texto: Aqui está um exemplo de como você pode fazer isso em Python: ```python import pytesseract from pdf2image import convert_from_path import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords # Configuração do Tesseract pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract' # caminho do executável do Tesseract # Função para extrair texto das páginas do PDF def extract_text_from_pdf(pdf_path): pages = convert_from_path(pdf_path) texts = [] for page_number, page in enumerate(pages): text = pytesseract.image_to_string(page, lang='por') texts.append((page_number + 1, text)) return texts # Função para filtrar e selecionar conteúdo relevante def filter_relevant_content(texts, keywords): relevant_content = [] stop_words = set(stopwords.words('portuguese')) for page_number, text in texts: words = word_tokenize(text.lower()) filtered_words = [word for word in words if word not in stop_words and word.isalnum()] if any(keyword in filtered_words for keyword in keywords): relevant_content.append((page_number, text)) return relevant_content # Caminho do arquivo PDF e palavras-chave para filtrar pdf_path = 'seu_arquivo.pdf' keywords = ['respiração', 'modulação', 'voz', 'dublagem'] # Extração e filtragem texts = extract_text_from_pdf(pdf_path) relevant_content = filter_relevant_content(texts, keywords) # Exibir conteúdo relevante for page_number, content in relevant_content: print(f"Página {page_number}:\n{content}\n") ``` ### Próximos Passos: 1. **Personalização**: Ajuste as palavras-chave e o processo de filtragem conforme necessário para sua aplicação específica. 2. **Integração com gpt-4**: preciso de um refinamento mais sofisticado, integrando a filtragem com o modelo gpt-4 para classificar a relevância do conteúdo extraído. 3. **Automação Total**: Uma vez que o script esteja funcionando conforme esperado, você pode automatizar sua execução em um servidor ou usando ferramentas de automação como cron jobs. Se precisar de mais detalhes ou ajuda com algum dos passos, sinta-se à vontade para perguntar!

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)
Funções necessárias Desenvolvedor, Outro
Outras funções necessárias Estou procurando um freelancer especializado em programação para desenvolver uma solução automatizada de extração de texto utilizando OCR e seleção de conteúdo relevante. O projeto consiste em extrair texto de 112 arquivos PDF provenientes de minha revisão bibliográfica e filtrar conteúdo específico relacionado a técnicas respiratórias e cuidados com a saúde respiratória. O público-alvo inclui profissionais que utilizam extensivamente a voz em suas atividades, como professores, advogados, dubladores, locutores, radialistas, apresentadores, jornalistas, repórteres, palestrantes, pastores e padres, vendedores, atendentes de telemarketing, atores, cantores e afins.

Prazo de Entrega: Não estabelecido

Habilidades necessárias