Linked (Open) Data - Von der Theorie zur Praxis

Kontrollierte Vokabulare und Thesauri

  Kontrollierte Vokabulare und Thesauri

 

 

Kontrollierte Vokabulare und Thesauri

Die Organisation von Daten und Dokumenten in einem Unternehmen ist oft nicht einfach, da verschiedene Möglichkeiten bestehen. So können alle Unterlagen zu einem Geschäft zusammengehalten werden, oder alle zu einem Produkt oder all diejenigen, die einen bestimmten Kunden betreffen. Wie auch immer die Unterlagen und Daten organisiert werden, können Beziehungen zwischen den Dokumenten nur begrenzt offengelegt werden. Problematisch ist es beispielsweise meist darzustellen, dass die Unterlagen von zwei verschiedenen Geschäften miteinander verwandt sind.

Um dieses Problem zu lösen, werden kontrollierte Vokabularien und Thesauri zur Beschlagwortung von Ordnern, Datensätzen oder Dokumenten eingesetzt. Doch der Aufwand, ein umfassendes kontrolliertes Vokabular (wir wollen sie hier der Einfachheit halber generell Thesauri nennen) zu erstellen, ist nicht zu unterschätzen. Da kann es hilfreich sein, wenn auf einen bestehenden Thesaurus zurückgegriffen werden kann. Allerdings erweist es sich oft, dass bestehende Thesauri den spezifischen Anforderungen eines Unternehmens nicht ganz Genüge tun. Vielleicht fehlen in dem ‚eingekauften‘ Thesaurus einzelne Begriffe, die im Unternehmen oft verwendet werden, vielleicht verwendet das Unternehmen einzelne Begriffe auch anders, als dies im importierten Thesaurus vorgesehen ist. Um diesen Schwierigkeiten zu begegnen drängt es sich auf, dass das Unternehmen trotz allem einen eigenen Thesaurus aufbaut, sich dabei aber soweit als möglich an öffentlich zugänglichen Thesauri orientiert.

Bei der Erstellung eines eigenen lokalen Thesaurus kann die Übernahme von externen Daten eine grosse Arbeitsersparnis darstellen. Gleichzeitig lohnt es sich, sich so weit als möglich an gängigen Thesauri zu orientieren, da so garantiert werden kann, dass weitgehend mit Begriffen operiert wird, die auch extern klar definiert sind. Dies kann wesentlich zur Erhöhung der Visibilität im Netz beitragen.

In unserer Beispielapplikation greifen wir auf den Umweltthesaurus (UMTHES) des deutschen Umweltbundesamtes, der bereits in RDF vorliegt, zurück. Wir nutzen aus diesem sehr umfassenden Thesaurus, der neben Energiethemen auch Belange des Naturschutzes und vieles mehr abdeckt, nur einen kleinen Teil. Die einschlägigen Kollektionen haben wir in unseren Triple-Store importiert.

So nützlich dieser Thesaurus-Auszug ist, so sehr drängt sich eine Bearbeitung auf. Dies ist notwendig, da im UMTHES-Thesaurus z.B. eine Luftwärmepumpe, nicht aber eine Luft-Wasser-Wärmepumpe existiert. Luft-Wasser-Wärmepumpe ist aber eine Bezeichnung, die in der Schweiz üblich ist, der Begriff muss daher zwingend im Thesaurus von energyinfo.ch vorkommen . Wir haben den Datensatz zur Luftwärmepumpe daher um den alternativen Begriff der Luft-Wasser-Wärmepumpe ergänzt. Im folgenden Auszug aus dem lokalen Thesaurus, der auf dem UMTHES-Thesaurus beruht ist die Ergänzung um den spezifischen Produktebegriff "Luft-Wasser-Wärmepumpe" hervorgehoben.

<!-- Luftwaermepumpe - http://sns.uba.de/umthes/_00608595 --> 
  <rdf:Description rdf:about="http://sns.uba.de/umthes/_00601153">
    <skos:prefLabel xml:lang="de">Umgebungswärme</skos:prefLabel>
  </rdf:Description>
  <rdf:Description rdf:about="http://sns.uba.de/umthes/_00653011">
    <skos:prefLabel xml:lang="de">Wärmepumpenheizung</skos:prefLabel>
  </rdf:Description>
  <rdf:Description rdf:about="http://sns.uba.de/umthes/_00026972">
    <skos:prefLabel xml:lang="de">Wärmepumpe</skos:prefLabel>
  </rdf:Description>
  <rdf:Description rdf:about="http://sns.uba.de/umthes/_00608595">
    <rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/>
    <schema:memberOf rdf:resource="http://sns.uba.de/umthes/EN50"/>
    <skos:inScheme rdf:resource="http://sns.uba.de/umthes/scheme"/>
    <skosxl:prefLabel rdf:resource="http://sns.uba.de/umthes/DW_05256872"/>
    <skos:prefLabel xml:lang="de">Luftwärmepumpe</skos:prefLabel>
    <skosxl:altLabel rdf:resource="http://sns.uba.de/umthes/TH_00660809"/>
    <skos:altLabel xml:lang="en">air heat pump</skos:altLabel> 
    <!-- added by Bruno Wenk / Project -->
    <skos:altLabel xml:lang="de">Luft-Wasser-Wärmepumpe</skos:altLabel>

Der so erstellte Thesaurus kann in verschiedenen Weisen genutzt werden.

1. Die erste Nutzung ist die Schaffung eines Überblicks über das Wissensfeld, das vom Portal energyinfo.ch abgedeckt wird. Dazu kann der Thesaurus z.B. als Netz dargestellt werden.

2. Die zweite Nutzung ist der Verweis auf Dokumente, die weitergehende Erläuterungen liefern. In unserer Applikation nutzen wir den Thesaurus, um Tutorials zu erschliessen. Die Datensätze zu den Tutorials enthalten den Verweis auf das entsprechende Konzept im UMTHES-Thesaurus:

<schema:category rdf:resource="http://sns.uba.de/umthes/_00608594"/> # Grundwasserwärmepumpe

3. Ebenso wie die Tutorials können auch die Personendaten, die Produktdaten und die Daten der Partnerfirmen mit dem Thesaurus verlinkt werden. Dies erlaubt es, komplexere Abfragen im Informations-Ökosystem der Firma energyinfo.ch zu ermöglichen. Im RDF-Datensatz zur Firma K sieht der Verweis auf das Konzept im UMTHES-Thesaurus entsprechend wie folgt aus:

4. Schliesslich macht das Beispiel des Firmendatensatzes deutlich, dass der Thesaurus auch ein Hilfsmittel zur Vereinheitlichung des Vokabulars und zur semantischen Erweiterung einer Suche sein kann.

In unserer Applikation müssen wir davon ausgehen, dass die Partnerfirmen ihre Produkte und Kompetenzen mit Begriffen beschreiben wollen, die in ihrer Firma gängig sind. Wenn Firmen das Formular zur Erfassung der Mikrodaten ausfüllen, werden sie die Begriffe verwendenm die sie auch auf ihrer eigenen Webseite verwenden. Energyinfo.ch kann von ihnen nicht verlangen, dass sie ein kontrolliertes Vokabular einsetzen. Firma K wird ihre Elektroheizung somit als Elektrospeicherheizung bezeichnen, Firma A verwendet hingegen vielleicht lieber den Oberbegriff Elektroheizung. Energyinfo.ch muss aber gewährleisten, dass eine Suche nach Elektrospeicherheizung auch die Datensätze der Firma A als Treffer anzeigt. Sind im lokalen Thesaurus die beiden Begriffe als alternativ definiert, kann die Suche entsprechend definiert werden. Der Thesaurus ermöglicht so die Vereinheitlichung der Begrifflichkeit, ohne die Partner zur Übernahme des kontrollierten Vokabulars zwingen zu müssen.

 

Protokolle der Realisierung