El objetivo del proyecto será integrar distintas fuentes de datos sobre un mismo dominio de aplicación y realizar consultas sobre ellas. Para ello, primero debemos homogeneizar el formato de las fuentes, utilizando rdf, crear una ontología que describa la parte del dominio en la que estamos interesados, y finalmente, realizar consultas sparql para obtener la información relevante para nuestra aplicación.
Cada semana iremos realizando uno de los pasos, para que al final todos y todas tengamos el proyecto completo.
Lo primero que tendremos que hacer es decidir el dominio de aplicación de nuestro proyecto, por ejemplo, películas, artículos científicos, datos de tráfico, monumentos
Nuestra fuente de datos central será Dbpedia. Dbpedia es la versión en rdf de wikipedia. Es decir, la información que se recoge en wikipedia se ha tradicido a rdf y puede consultarse usando sparql.
Nuestra segunda fuente de datos va a ser una fuente de datos abierta (open Data) en RDF, que buscaremos a través de la Web. Es muy importante que esta fuente de datos esté en RDF. Os recomiendo las Webs de los ayuntamientos o la página de la nube de Linked Open Data (pinchando en los nodos accedéis a los repositorios):
https://lod-cloud.net/
En tercer lugar, tendremos que usar una base de datos relacional, que o bien buscamos, usamos una que hayamos realizado nosotros o que tengamos de alguna otra asignatura, o bien la creamos nosotros desde cero.
Para delimitar el dominio de nuestro proyecto tendremos que definir una pequeña ontología, donde se recojan los conceptos, relaciones y restricciones que conforman nuestro problema concreto.
Usaremos tres herramientas para integrar nuestras fuentes de datos. Por un lado, usaremos D2rq para traducir nuestra base de datos relacional a rdf, y por otro, usaremos la herramienta silk para enlazar las fuentes de datos.
Finalmente, cargaremos los datos en RDF en Virtuoso, y usaremos su SPARQL EndPoint para realizar consultas.
Como ya he comentado antes, iremos aprendiendo a hacer cada uno de los pasos durante cada semana, por lo que no debéis preocuparos si ahora mismo no entendéis todo.
Plazo de Entrega: No definido