Linked (Open) Data - Von der Theorie zur Praxis

Daten transformieren

  Daten transformieren

 

 

Daten transformieren

Um später auf verschiedene Datenbestände zugreifen und diese miteinander verlinken zu können, müssen alle Daten in RDF vorliegen. Dazu brauchen wir als Erstes ein Vokabular, das es uns erlaubt, alle Werte der Bibliotheksstatistik zu definieren. Ein Verzeichnis vorhandener Vokabularien findet sich auf linked open vocabulary der open knowledge foundation: http://lov.okfn.org/dataset/lov/ . Es erstaunt aber nicht, dass sich selbst in diesem umfangreichen Verzeichnis kein Vokabular findet, das unsere Statistik unmittelbar abzubilden vermöchte. Zu spezifisch sind Werte in der Bibliotheksstatistik wie sich in untenstehender Tabelle leicht ersehen lässt:

vergrössern

Auf der Suche nach einer Alternative, sind wir mit dem Suchbegriff ‚Dimension‘ auf ein Vokabular gestossen, das es erlaubt, eine Statistik abzubilden, ohne auf das Fachvokabular der Domaine, die statistisch erfasst worden ist, angewiesen zu sein. Das Vokabular DataCube ist ein generisches Modell zur multidimensionalen Abbildung von Statistikdaten, indem es die Zeilen und Spalten der Tabelle beschreibt. Das Vokabular erschien uns geeignet – und wie wir feststellen konnten, wird dieses u.a. auch vom Bundesamt für Statistik verwendet.

Das Vokabular beschreibt eine Statistik wie folgt:

Bibliothek Altersgruppe Geschlecht Anzahl Personen
Stadtbibliothek Chur
(Feld A1)
16-20
(Feld B1)
m
(Feld C1)
345
(Feld D1)
Stadtbibliothek Chur 16-20 w 423
Stadtbibliothek Chur 21-25 m 728
Stadtbibliothek Chur 21-25 w 619

DataCube stellt die Begriffe zur Verfügung, die es erlauben, diese Tabelle in Triples zu fassen:

Feld A1 => hat Beziehung zu => Feld D1

Feld D1 => hat Beziehung zu => Feld C1; etc.

Die Felder können beliebig benannt werden, so dass sich die Tabelle schliesslich beschreibt:

Feld A1 (Stadtbibliothek Chur) => (hat) => Feld D1 (345 Benutzer).

Feld D1 (345 Benutzer) => (haben Geschlecht) => Feld C1 (männlich)

Wir nutzen dieses Vokabular, um die Bibliotheksstatisik in RDF umzuwandeln. Für die Transformation könnte man die Software OpenRefine bzw. LODrefine verwenden. Wir haben dazu aber ein eigenes Programm entwickelt. Der Datensatz stellt sich nach der Transformation wie folgt dar (Auszug):

Auch die Daten von OSM müssen wir für SPARQL-Abfragen zugänglich machen. Dazu haben wir eine Software gefunden, die es erlaubt, SPARQL-Abfragen an OSM zu senden. Die abgefragten OSM-Daten werden in RDF transformiert und in diesem Format ausgegeben. Wie sich gezeigt hat, funktionierte dieser Dienst jedoch nicht zuverlässig, was uns dazu bewogen hat, die Software lokal zu betreiben und die OSM-Daten im Sesame Triple-Store zu speichern. Auf LinkedGeodaten stehen diese Daten, die jeweils auf Anfrage in RDF konvertiert werden, zur Verfügung.

Da auch Geonames keine RDF-Daten liefert, mussten auch diese Daten noch in RDF umgewandelt werden. Wir haben dazu alle Geonames-Daten zur Schweiz heruntergeladen und in RDF umgewandelt.