Linked (Open) Data - Von der Theorie zur Praxis

Grundlegende Konzepte

  Daten und Dokumente
  Strukturierte Beschreibung von Daten mit RDF
  Abfragen von strukturierten Daten mit SPARQL
  Das semantische Web

 

 

Daten und Dokumente

 

Was sind Daten?

Daten beschreiben Merkmale von "Dingen". Der allgemeine Begriff "Ding" (thing) kann für eine Person, ein Gerät, ein Unternehmen, ein Buch, ein Prozess, usw. stehen. Wir könnten auch sagen: Daten beschreiben Merkmale eines Untersuchungsgegenstandes.

Personenbezogene Daten beschreiben demnach Merkmale einzelner Personen. Bevölkerungsdaten beschreiben Merkmale von Bevölkerungsgruppen. Fahrplandaten beschreiben Abfahrts- und Ankunftszeiten von Zügen und Bussen. Forschungsdaten beschreiben Merkmale von Forschungsprojekten und deren Ergebnissen.

Daten werden erfasst, z.B. mit Messungen, Befragungen, Beobachtungen, Berechnungen. Erfasste Daten sind dann wertvoll, wenn auch festgehalten (und zugänglich gemacht) wird, wer sie wann, wie, womit, unter welchen Bedingungen, usw. erfasst hat. Falls solche Beschreibungen in strukturierter Form vorliegen, bezeichnet man sie als Metadaten.

Primärdaten oder Rohdaten sind die direkt erfassten Daten vor einer Bearbeitung oder Interpretation. Sekundärdaten oder abgeleitete Daten entstehen durch Berechnung, Bearbeitung oder Interpretation aus den Primärdaten.

Quantitative Daten sind numerisch (z.B. eine Länge in Metern, ein Gewicht in kg, eine Anzahl, ein prozentualer Anteil). Nominale und ordinale Daten sind qualitative Daten. Nominale Daten beschreiben mögliche Verschiedenartigkeiten eines Merkmals (z.B. das Geschlecht: männlich / weiblich). Ordinale Daten beschreiben mögliche Verschiedenartigkeiten eines Merkmals unter Berücksichtigung einer Rangfolge (z.B. Altersgruppen: 15-19 Jahre / 20-24 Jahre / 25-29 Jahre / usw.).

Beispiel: Im Auftrag des Gesundheitsamtes Graubünden befragen Amina und ihre MitschülerInnen an einem Samstag in der Innenstadt von Chur Passantinnen und Passanten zu den Notrufnummern 112, 117, 118 und 144. Mitarbeitende des Amtes haben einen passenden Fragebogen ausgearbeitet um festzustellen, wie bekannt die Notrufnummern sind. Die Studierenden sprechen die PassantInnen an und bitten diese, an der Befragung teilzunehmen. Die Antworten werden (mit Einverständnis der befragten Personen) mit einem Diktiergerät aufgezeichnet und durch Ankreuzen der entsprechenden Musterantworten auf dem Fragebogen als ordinale Daten erfasst (z.B. "kennt 112 nicht" / "kennt 112, weiss aber nicht, was der Anruf in der Schweiz bewirkt" / "kennt 112 und kann erläutern, was der Anruf in der Schweiz bewirkt"). Als personenbezogene Daten werden das Alter (ordinal) und das Geschlecht (nominal) der antwortenden PassantInnen erfasst. Aus diesen Rohdaten wird die Bekanntheit der Notrufnummern nach Altersgruppen abgeleitet. Die Metadaten erläutern die Fragen und Musterantworten des Fragebogens, beschreiben die Auswertemethoden und halten das Datum der Befragung, die Anzahl der angesprochenen und der antwortenden Passantinnen und Passanten fest.

Daten werden immer mehr und immer wichtiger. Sie bilden die Grundlage für Analysen, die Information liefern, um Vorgänge besser zu verstehen und zu steuern und um bessere Entscheidungen zu treffen.

Oft wird in diesem Zusammenhang der Begriff "Big Data" erwähnt. Eine einheitliche Definition gibt es (immer) noch nicht. Aber einige gängige Definitionen weisen darauf hin, dass "big" mit der Menge, der Geschwindigkeit der Zunahme der Menge, der Vielfalt unterschiedlicher Datenformate und der zunehmenden Unsicherheit bezüglich der Vertrauenswürdigkeit der Daten zu tun hat. Big Data übersteigt damit die Leistungsfähigkeit konventioneller Methoden und Systeme zur Erfassung, verarbeitung, Speicherung und Analyse der Daten. Manche Definitionen nennen auch die Einbindung von unstrukturierten Daten (z.B. aus Social Media Plattformen) in die Analyse als Merkmal von Big Data (siehe z.B. Ward, 2013).

 

Dokumente

Ein Dokument trägt Inhalte, die sich an Menschen richten und die mit (direkter oder indirekter) Beteiligung von Menschen erstellt worden sind. Der Inhalt eines Dokuments kann sachlich sein (z.B. eine Sitzungsankündigung, eine Rechnung, die Fotografie einer Landschaft), aber auch Gefühle und Haltungen ausdrücken.

Dokumente können auch Daten enthalten (z.B. das Protokoll einer Messung).

In digitale ("elektronische") Dokumente können ausserdem Metadaten "eingebettet" werden (z.B. der Aufnahmeort, der Zeitpunkt der Aufnahme, die Blendenzahl und die Verschlusszeit bei einer Fotografie).

Computerprogramme können die Bedeutung des Inhalts von digitalen Dokumenten nur erschliessen, wenn dieser strukturiert ist (z.B. eine Tabelle mit Messwerten in einem genau definierten Format). Derartige Dokumente kann man als maschinenlesbar bezeichnen. Um mit dem Computer einzelne Aspekte der Bedeutung des Inhalts von unstrukturierten und semi-strukturierten digitalen Dokumenten zu erschliessen, sind Methoden des Text-Mining nötig (z.B. Sentiment Analysis, Named Entity Recognition).

Beispiel Rechnung: Der Inhalt des pdf-Dokuments, das Peter von einem Beratungsunternehmen erhalten hat, ist für ihn verständlich. Für ein Computerprogramm ist die Bedeutung des Textes aber nur schwer zugänglich. Wer ist der Rechnungsempfänger? Wofür werden die einzelnen Beträge in Rechnung gestellt? Auf welches Konto muss der Gesamtbetrag eingezahlt werden? Und wer der Rechnungssteller ist, kann ein Computerprogramm in diesem Text gar nicht erkennen.

Mit der zunehmenden Digitalisierung von Geschäftsprozessen steigen die Anforderungen an die Maschinenlesbarkeit von Dokumenten. Verschiedene Initiativen befassen sich deshalb mit der Entwicklung von Standards für das "Einbetten" von maschinenlesbaren Metadaten in Geschäftsdokumente, z.B. die Zentralen User Guidelines des Forums elektronische Rechnung Deutschland (ZUGFeRD).