Zum Inhalt springen
Logo FHGR Blog

FHGR Blog

Daten ver­knüp­fen – Zu­sam­men­hän­ge er­ken­nen

Livia bereitet sich auf ihre Maturarbeit vor. Sie möchte in dieser Arbeit untersuchen, ob es in Ballungszentren mehr öffentliche Bibliotheken gibt als in ländlichen Regionen und ob reichere Regionen ein breiteres bibliothekarisches Angebot und eine grössere Anzahl Ausleihen haben als ärmere. Wo und wie kann Livia die für ihre Untersuchungen benötigten Daten finden? Und wie kann sie diese zusammenführen, um Antworten auf ihre Fragen zu gewinnen?

Text: Michael Aschwanden, Niklaus Stettler, Bruno Wenk / Bilder: Shutterstock, Dbpedia.org, HTW Chur

In welchen Bezirken gibt es mehr Bibliotheken als an anderen?

Dies ist eines der Szenarien, welche wir im Rahmen unseres Forschungsprojektes Linked (Open) Data – von der Theorie zur Praxis verfolgten. In verschiedenen Situationen ist jeder von uns auf qualitativ gute Daten angewiesen. Ohne sie wird es schwierig, gute Entscheidungen zu treffen oder gar neue Erkenntnisse zu gewinnen. Auf den ersten Blick scheint Livia Glück zu haben, denn das Bundesamt für Statistik (BfS) stellt auf seiner Webseite viele Daten als Excel-Dokumente zur Verfügung. Doch das Verknüpfen von mehreren grossen Tabellen ist nicht banal und erfordert viel Handarbeit. Das ist auch der Grund, warum es auf die einfachen aber interessanten Fragen von Livia noch keine Antworten gibt.

So wie Livia geht es auch Unternehmen. Alle haben sie eine grosse Anzahl Daten, die in unterschiedlichen Systemen verteilt sind. In einem weiteren Szenario, das sich auf betriebliche Daten bezieht, gehen wir von einem fiktiven, aber durchaus realitätsnahen Unternehmen aus. Dieses verwaltet in je eigenen Datenbanken Information zu Mitarbeitenden, Produkten und Kunden und stellt letzteren auch kleine Tutorials zu den Produkten zur Verfügung. Will das Unternehmen neu erfassen, welcher Mitarbeiter sich auf welche Produktegruppe spezialisiert hat, würde es wohl meist eine neue Datenbank aufsetzen oder eine Schnittstelle programmieren lassen. Das ist aufwändig und wenig flexibel.

Linked (Open) Data ist ein Konzept, das für beide Anwendungsbereiche einen flexibleren Lösungsansatz verspricht. Statt viel Handarbeit oder aufwändiger Programmierung könnten die Daten auch bei der Suche zusammengeführt werden. Dann könnten je nach Bedürfnis neue Zusammenhänge hergestellt werden. Das Versprechen ist gross, doch noch gibt es kaum Beispiele, die zeigen würden, wie man ein solches System baut. Diese Lücke haben wir in unserem Projekt zu schliessen versucht.

Wir haben die Daten der Bibliotheksstatistik für Livia in das für Linked Data standardisierte Format RDF (Resource Description Framework) überführt und so erreicht, dass wir diese nun mit Hilfe der Abfragesprache SPARQL (SPARQL Protocol And RDF Query Language) mit vielen öffentlich zugänglichen Daten in Beziehung setzen können. So ist es uns gelungen z.B. vorher isolierte Daten (Bibliothekskennzahlen und Sozialdaten der Bevölkerung oder Geodaten) zu verknüpfen.

Im Beispiel mit betrieblichen Daten nutzen wir Linked Data um die Daten der bestehenden Datenbanken miteinander zu verknüpfen. Ein Vokabular, das die wichtigsten Begriffe des Unternehmens umfasst, dient als Kern eines neuen Linked Data-Informationssystems. Zwar bleiben die Daten in den bestehenden Datenbanken und können dort auch weiterhin genutzt werden. Zugleich ist es möglich, über neue Layer SPARQL-Abfragen auf mehrere Datenbanken abzusetzen. Wenn jetzt neue Informationsbedürfnisse auftauchen (z.B. welcher Mitarbeiter betreut welchen Kunden), dann muss nicht mehr eine neue Datenbank aufgesetzt werden. Es reicht, wenn eine neue SPARQL-Abfrage formuliert wird.

Mit unserem Projekt haben wir das Potential Linked Data im betrieblichen Umfeld genauso zeigen können, wie wir demonstrieren, was mit öffentlich zugänglichen Daten möglich ist, wenn wir sie miteinander verlinken. Im Laufe des Projekts hat sich gezeigt, dass die neuen Technologien wohl vielversprechend, doch noch nicht ganz ausgereift sind. Das Bereitstellen der Daten als Linked Data ist aufwändiger als erwartet, so wie auch die Abfrage der Daten mit SPARQL Personen ohne vertiefte Informatikkenntnisse überfordert. Es gibt hier gibt noch einigen Entwicklungsbedarf, der sich aber – das konnten wir mit unserem Projekt deutlich belegen – sehr lohnen würde.


MICHAEL ASCHWANDEN
Michael Aschwanden ist Informations- und Dokumentationsspezialist. Er arbeitet an der HTW Chur am Schweizerischen Institut für Informationswissenschaft und arbeitet in diversen Forschungsprojekten mit.
NIKLAUS STETTLER, PROF., DR.
Niklaus Stettler ist Leiter vom Schweizerischen Institut für Informationswisseschaft, sein Fachgebiet ist die digitale Langzeitarchivierung sowie Records Management in Verwaltung und Privatwirtschaft.
BRUNO WENK, PROF. DIPL. EL.ING. ETH
Bruno Wenk ist Dozent am Institut für Photonics und ICT, sein Fachgebiet sind Digitale Bibliothek, eBooks, eLearning, Informationsvisualisierung, Internet- und Webtechnologien, Linked Open (Government/Library) Data sowie Multimedia.

Dies ist ein Blog-Beitrag der HTW Chur.

Anzahl Kommentare 0
Kommentare