Evaluating bids

Creacion de algoritmo de procesamiento de texto no estructurado

Published on the May 31, 2022 in IT & Programming

About this project

Open

Necesitamos desarrollar un algoritmo que sirva para procesar texto no estructurado sobre el Diario Oficial, documentos que contienen la información de conformación de empresas, esto la idea es tenerlo en formato de tabla, para poder armar diferentes bases de datos relacionales.
Existen 2 fuentes:
1. Fuentes escritas: https://www.diariooficial.interior.gob.cl/versiones-anteriores/
En este caso se necesitan descargar todos los documentos desde el año 1980 y procesar los textos, no importa si se procesan de forma manual ya que no posee tanta calidad como la versión digital. Lo que importa en este caso es poder armar una base de datos con las versiones anteriores.

2. Versión digital: https://www.diariooficial.interior.gob.cl/edicionelectronica/empresas_cooperativas.php?date=30-05-2022&edition=43265
En este caso la idea es poder generar un algoritmo de procesamiento de texto no estructurado ya sea en Python o R de modo que se pueda ejecutar y vaya extrayendo quienes son los socios de las empresas, fechas de creación , etc

Category IT & Programming
Subcategory Data Science
Project size Large
Is this a project or a position? Project
Required availability As needed

Delivery term: June 25, 2022

Skills needed

Other projects posted by N. T.