Linked (Open) Data - Von der Theorie zur Praxis

Szenarien

  Szenarien zum Beispiel LOD
  Der Linked-Open-Data-Ansatz
  Das Fallbeispiel für die Applikation: Die Bibliotheksstatistik

 

 

Szenarien zum Beispiel LOD

Daten im Web veröffentlichen

Claudia leitet eine Bibliothek in der Region Walensee. Ihre Bibliothek hat noch keinen eigenen Webauftritt und ist deshalb im World Wide Web nicht sichtbar. Claudia möchte das ändern. Sie stellt einen Kreditantrag an den Kantonsrat des Kantons St.Gallen, um die wichtigsten Angaben zu ihrer Bibliothek im Web veröffentlichen zu können. Um eine Chance zu haben, darf das Vorhaben aber nicht viel kosten. Claudia schlägt einen Eintrag auf OpenStreetMap vor.

Daten finden

Alex ist Mitglied des Kantonsrates im Kanton St. Gallen. Er soll Stellung nehmen zu einem Kreditantrag der Bibliothek von Claudia. Er möchte die Behauptung im Antrag, wonach die Bibliotheksdichte in der Region Walensee im nationalen Vergleich besonders tief sei, überprüfen.

Daten verknüpfen

Livia bereitet sich auf ihre Maturarbeit vor. Sie möchte in dieser Arbeit untersuchen, ob es in Ballungszentren mehr öffentliche Bibliotheken gibt als in ländlichen Regionen und ob reichere Regionen ein breiteres bibliothekarisches Angebot haben als ärmere. Sie stellt sich die Frage, wo und wie sie die für ihre Untersuchungen benötigten Daten findet. Und sie fragt sich, wie sie diese zusammenführen kann, um Antworten auf ihre Fragen zu gewinnen.

 
 

Der Linked-Open-Data-Ansatz

Der Linked-Open-Data-Ansatz ist geeignet, um den Erwartungen von Claudia, Alex und Livia zu entsprechen:

Claudia veröffentlicht Daten zu ihrer Bibliothek (Name der Bibliothek, Anschrift, Telefonnummer, E-Mail-Adresse usw.) auf OpenStreetMap. Die Bibliothek wird damit auf OpenStreetMap-Karten (z.B. CityMap2go, Naviki, etc.) weltweit sichtbar. In den Einträgen auf OpenStreetMap findet sich auch ein Link auf die Webseite der Bibliothek auf der neben den Öffnungszeiten auch erste Angaben zum Bestand der Bibliothek vermerkt sind.

Alex sucht nach einer Graphik, die die Verteilung der Bibliotheken in der Schweiz nach Bezirken darstellt. Da er diese Graphik nicht findet, regt er den Verband ‚Bibliothek Information Schweiz‘ an, eine solche zu realisieren. Der Verband nimmt diese Anregung auf und sucht nach Möglichkeiten, die Daten der Bibliotheksstatistik auf einer Karte zu visualisieren.

Livia hat sich zur Vorbereitung für ihre Maturarbeit schon ein wenig in die Theorie von Linked Data eingelesen. Daher weiss sie, dass sie öffentliche statistische Daten mit einer SPARQL-Abfragen analysieren kann und so Antworten auf ihre Fragen gewinnen kann. Im Rahmen ihrer Maturarbeit will sie die Abfragesprache SPARQL erlernen und sich dann an die Abfragen wagen. Livia weiss allerdings auch, dass dies nur gelingen kann, wenn die öffentlichen Daten in RDF verfügbar sind und über einen SPARQL-Endpoint zugreifbar sind. Da nicht alle Daten, die sie benötigt in RDF vorliegen, will sie mit Hilfe einer Informatikerin einen kleinen Triple-Store aufsetzen, in dem sie Daten, die sie selbst in RDF überführt hat, ablegen kann.

 
 

Das Fallbeispiel für die Applikation: Die Bibliotheksstatistik

Das Bundesamt für Statistik gibt jährlich die nationale Bibliotheksstatistik heraus. Diese Statistik steht im Zentrum unserer Applikation. Dies weil wir und am Schweizerischen Institut für Informationswissenschaft schon mehrmals in diese vertieft haben und weil wir immer wieder feststellen mussten, dass diese Statistik nur teilweise befriedigt.

Das erste Problem ist natürlich, dass in der Statistik nicht alle Bibliotheken erfasst sind, da es die Bibliotheken selbst sind, die dafür verantwortlich sind, dass das Bundesamt für Statistik die Daten erhält. Liefert eine Bibliothek keine Daten, so taucht diese Bibliothek auch nicht in der Statistik auf. Gravierender aber noch ist, dass die Identität einer erfassten Bibliothek nicht immereindeutig ist. Hat die Bibliothek ihren Namen bei Ablieferung der Daten anders angegeben, als z.B. im Telefonbuch, ist nicht mehr klar, ob der Datensatz der Bibliothek die Institution beschreibt, die im Telefonbuch nachgewiesen ist. Die Bibliotheksstatistik ist diesbezüglich keineswegs eine Ausnahme. Viele öffentliche Daten kommen aufgrund von Selbstdeklaration zu Stande – und damit stellt sich auch bei all diesen Daten die Frage nach der Validität.

Weniger hilfreich als erhofft erweisen sich die Daten auch, wenn wir diese auszuwerten versuchen. Aufschlussreich wäre es, wenn wir die Daten gruppieren könnten (z.B. alle Bibliotheken aus strukturschwachen Regionen). Doch leider ist das mit den vorhandenen Daten ebenso wenig möglich, wie jedwelche weitergehenden Analysen wie das Abklopfen der Daten auf allfällige Korrelationen zu Bevölkerungsdaten o.ä. Auch dies sind Befunde, die weit über die Bibliotheksdaten hinausgreifen. Daten werden wertvoller, wenn sie für die Analysen gruppierbar sind und in Verbindung mit anderen Daten gesetzt werden können. Diese Herausforderungen stellen sich bei sehr vielen Datensätzen.

In unserer Beispielapplikation versuchen wir diese Herausforderungen anzugehen.

  • Wir suchen nach einer Lösung, wie wir valide Daten zu den Stammdaten der Bibliotheken erhalten und damit die Basis schaffen, um die Daten der Bibliotheksstatistik zu validieren.
  • Wir werden zeigen, wie die Daten der Bibliotheksstatistik georeferenziert und damit auf einer Karte dargestellt werden können.
  • Wir suchen nach Wegen, wie wir die Bibliotheksdaten gruppieren können, so dass sich erste Auswertungen machen lassen.
  • Und schliesslich werden wir die Daten der Bibliotheksstatistik mit anderen öffentlichen Daten korrelieren und so versuchen, zu neuen Erkenntnissen zu kommen. Letzteres machen wir nicht zuletzt, indem wir die Daten visualisieren und damit wirklich verständlich machen.

Wir werden zeigen, was mit einem linked data Ansatz leistbar ist und wir werden auch darauf hinweisen, wo noch Entwicklungsbedarf besteht, um den beabsichtigten Mehrwert wirklich realisieren zu können.

Wir haben unsere Beispielapplikation rund um einen kleinen Datenbestand konstruiert. Anhand dieses Beispiels lösen wir exemplarisch die relevantesten Herausforderungen, die sich mit der Veröffentlichung und Verlinkung von statistischen Daten stellen. In dem Sinne hoffen wir, dass wir all jenen, die eine Linked Open Data Lösung aufbauen wollen, Hilfestellung und Entscheidungsgrundlage liefern können.