Blog of #DieDatenlaube
Mit Wikidata ‚Die Gartenlaube‘ in Wikisource strukturiert erschließen – ein Werkstattbericht
Christian Erlinger (Q67173261)
Jens Bemme (Q56880673)
Eines der umfangreichsten Projekte der deutschsprachigen Wikisource-Community ist die Bearbeitung und Tiefenerschließung der ersten großen deutschsprachigen Illustrierten „Die Gartenlaube‟.
Seit Beginn des Jahres 2019 werden die transkribierten Artikel dieser Zeitschrift vollständig mit Hilfe von Wikidata formal und inhaltlich erschlossen.1 Wikidata wird dadurch zur offenen und strukturierten Bibliographie der freien Quellensammlung Wikisource. Die Methoden dieser teilautomatisierten bibliographischen Datenextraktion und Erschließung mit verschiedenen Tools in Wikidata wie QuickStatements oder Jupyter Notebooks sind im Folgenden dokumentiert.
Von geschätzt 18.500 Artikel, die ab 1853 bis zum Jahr 1900 in der Gartenlaube erschienen sind, sind per 1. November 2019 bereits 12.990 Artikel in Wikisource vorhanden – basierend auf 40.366 gescannten Seiten: gescannt, transkribiert oder auf Basis der Volltexterkennung (OCR) korrigiert.2
Die Artikel in Wikisource werden allesamt mit einer für Mediawikiprojekte typischen Infobox mit grundlegenen Metadaten ausgestattet. (vgl. Abb. 1) Dies umfasst in der Regel den Titel des Artikels, die Quellenstelle mit Heftnummer, Seitenzahl(en) und das Publikationsjahr. Gegebenenfalls ist auch ein Kurzzusammenfassung und ein Link zu einer relevanten Wikipedia-Seite angegeben, die ggf. das Hauptthema des Textes beschreibt und somit ein erstes Schlagwort darstellt. Darüber hinaus beinhaltet die Infobox noch Links zu den Seitenscans sowie Informationen zum Bearbeitungsstand der Texterschließung nach den Vorgaben der Wikisource-Community. All diese in gewisser Weise „strukturierten‟ (aber nur bedingt maschinenlesbaren) Daten der Wikisource-Seite lassen sich dann in einem Wikidata-Item (vgl. Abb. 2) strukturiert verankern und vor allem für Menschen wie Maschinen gleichermaßen les- und durchsuchbar halten.
Wie in allen Portalen des Wiki*versums ist auch in Wikisource die Möglichkeit gegeben, die jeweiligen Wikisource-Pages mit einem spezifischen Datenobjekt (Item) in Wikidata zu verlinken. Im Fall der Gartenlaube bedeutet dies, dass für jeden Artikel ein Wikidata-Item als bibliographischer Datensatz angelegt wird. Ein solches Item sollte ein entsprechendes Mindestset an bibliographischen Informationen des Artikels bereithalten. Das genutzte Basis-Metadatenschma ist in der nachfolgenden Tabelle dargestellt.
Property/Wikidata-Metadatenfeld | Format/Beschreibung des Inhalts | Beispiel Q61996511 |
---|---|---|
label_de | Titel des Artikels (Deutsch) | Jean Paul Richter |
label_en | Titel des Artikels (English) | Jean Paul Richter |
description_de | Arikel in: Zeitschrift, Jahrgang, Nr. | Artikel in: Die Gartenlaube, 1853, Heft 34 |
description_en | german article in Journal, Volume, Issue | german article in Die Gartenlaube, 1853, no. 34 |
P31 instance of | article Q191067 | |
P1476 title | Titel des Artikels | Jean Paul Richter |
P407 language of work or name | German Q188 | |
P577 publication date | YYYY | 1853 |
P304 pages | 197 | |
P433 issue | 18 | |
P1433 published in | Journal | Die Gartenlaube Q655617 |
P921 main subject | Jean Paul Q77079 | |
dewikisource_sitelink | Titel des Artikels | Jean Paul Richter |
Die Flexibilität und Offenheit des Datenmodells in Wikidata insgesamt erlaubt es für die spezifischen Items weitere Statements zu ergänzen, wie beispielhaft in der Tabelle 2 angeführt. Dies wäre bspw. die Ergänzung und Verlinkung von Illustrationen, der Nennung eines Illustrators, sofern auffindbar Links in Bibliothekskataloge zu den entsprechenden lokalen bibliographischen Fundstellen oder schlicht was sonst noch denkbar und möglich erscheint oder dereinst – durch Erzeugung neuer Wikidata-Properties für formale und inhaltliche Erschließung – möglich sein wird.
Property/Wikidata-Metadatenfeld | Format/Beschreibung des Inhalts | Beispiel Q61996511 |
---|---|---|
label_[Multiple_Languages] | Titel des Artikels in weiteren Sprachen – Tendenziell im Original, gegebenenfalls transliteriert. | Jean Paul Richter |
description_[Multiple_Languages] | Beschreibung des Items in weiteren Sprachen | Artikel in: Die Gartenlaube, 1853, Heft 34 |
P136 genre | Literaturgattung | poem Q5185279 |
P18 image | Illustrationen – direkte Verlinkung mit Bild auf Commons | |
P110 illustrator | Illustrator eines Werks | German Q188 |
P1343 described by source | Externe Fundstelle | Regional bibliography of Saxony Q61729277 |
P996 scanned file on Wikimedia Commons | Verlinkung der Quelltext-Scans auf Commons | |
[wikiproject]_sitelink | Sitelinks zu weiteren Wiki*Projekten (z.B. Wikipedia-Link zum Werk) |
Die Verknüpfung und Erschließung von Wikisource mittels Wikidata in Projekten mit historischen Texten (unabhängig davon, ob es sich um selbständige oder unselbständige Literatur handelt) ist ein erster Schritt. Darauf aufbauend kann weiteres Augenmerk auf ein drittes Wikimediaportal gelegt werden, ohne das die Volltexterschließung auf Wikisource so nicht möglich wäre: Wikimedia Commons. Auf Commons sind sämtliche für Wikisourceprojekte notwendigen Quelldaten gespeichert, die rohen Scans der Einzelseiten sowie extrahierte und bearbeitete Illustrationen. Insbesondere durch die Etablierung von Structured Data On Commons – der Einbindung von Linked Data nach dem Vorbild und unter Einbeziehung von Wikidata – ergeben sich hier seit dem Frühjahr 2019 neue und vor allem langfristig sehr nützlich erscheinende Beziehung.4 In Wikidata erzeugte bibliographische Items können nun in den Commons als stabiler Link bzw. Fundstelle für die jeweils in den Zeitungsartikeln vorhandenen Illustrationen oder Seitenscans verwendet werden. Das Nachweissystem für die Scans als Quelldokumente der folgenden Artikeltranskriptionen würde damit noch stabiler.
Per 1. März 2019 hatten 7.599 Artikel der Gartenlaube ein verlinktes Item in Wikidata. Eine SPARQL-Abfrage nach Artikeln mit dem Statement „published in‟ „Die Gartenlaube‟ ist aber mit den Daten des damaligen Zeitpunktes nicht möglich, da den vorhandenen Items als Veröffentlichungsort nicht die Zeitschrift selbst, sondern ein Jahrgangs-Item (z.B. „Gartenlaube 1878‟) als Fundstelle eingetragen wurde. Der Wert an bereits vorhandenen Wikidata-Items der Gartenlaube errechnet sich aus der gegenwärtig verfügbaren Liste aller Wikidata-Items unter nummerischer Auswertung der Q-ID der Wikidata-Items,5 um auf ein enstprechend frühes Anlagedatum des Items zu schließen (Konkret handelt es sich dabei um alle Gartenlaube-Items mit einer ID kleiner Q50000000).6
Der Großteil dieser mehr als 7.000 Items war hinsichtlich der bibliographischen Beschreibung eher dürftig, da es sich dabei um eine semi-automatische Anlage mittels des Tools PetScan oder automatisiert per Bot handelte, bei der auf Basis der jeweiligen Jahrgangskategorie in Wikisource Wikidata-Items nur rudimentär angelegt wurden (wie für das älteste Gartenlaube-Item in Abbildung 3 gezeigt).
Die zum Zeitpunkt 9. März 2019 vorhandenen Items hatten im Schnitt zwei Statements.7 Die beiden am häufigst eingesetzten Properties waren dabei P31 („instance of‟) und P1433 („published in‟) wie der Tabelle 3 zu entnehmen. Wie aus Abbildung 4 ersichtlich hatten 6.516 Items weniger oder gleich zwei Statements. Bei Items mit einer sehr hohen Anzahl an Statements wie all jenen mit mehr als 20 Statements lohnte sich der genaue Blick auf das Item, da es sich hierbei dann durchwegs um falsche Zuordnungen des Wikisource-Sitelinks des Gartenlaubeartikels zu einem Wikidata-Item handelte. Beispielsweise wurden biographische Artikel direkt dem biographischen Item, d.h. der Person in Wikidata zugeordnet. Eine in einem Artikel beschriebene Person kann respektive soll aber immer nur als verlinktes Schlagwort („main subject‟) im Artikel-Item verwendet werden.
Auf Basis dieser rudimentären Analyse der vorhandenen Einträge war klar, dass nicht nur die fehlenden Items dem neuen Datenmodell gemäß anzulegen sind, sondern auch die große Zahl der bestehenden Items einer gründlichen Überarbeitung bzw. Ergänzung bedurften.8
Rang | Property | Anzahl der Verwendung |
---|---|---|
1 | P31 | 7671 |
2 | P1433 | 1151 |
3 | P407 | 940 |
4 | P1476 | 636 |
5 | P577 | 536 |
6 | P6216 | 504 |
7 | P921 | 493 |
8 | P50 | 383 |
9 | P18 | 301 |
10 | P361 | 137 |
11 | P179 | 99 |
Die für die Anlage bzw. das Update der bibliographischen Wikidata-Items notwendigen Informationen finden sich weitestgehend in der Infobox wie in Abbildung 1 gezeigt. In ihrer Gesamtheit abfragbar sind alle Artikel der Gartenlaube in Wikisource anhand der vergebenen Kategorien. Jeder Artikel ist einer Jahrgangskategorie (Kategorie:Die Gartenlaube (YYYY) Artikel) zugeschrieben und diese wiederum ist eine Unterkategorie der Kategorie:Die_Gartenlaube_Artikel.
Zur Extraktion sämtlicher Artikelmetadaten der Gartenlaube wurde ein Python Skript in einem Jupyter Notebook entwickelt (Ablaufplan vgl. Abb. 5) und auf der Mediawiki Jupyter Plattform PAWS eingesetzt.
Mit RegularExpressions werden die einzelnen Parameter der Textbox auf der Seite extrahiert:
Die nach Wikidata importierten bibliographischen Daten bilden einen strukturierten und verlinkten Nachweis der in Wikisource transkribierten Zeitschriftenartikel. Dies erlaubt beispielsweise die automatisierte Übernahme der bibliographischen Daten in lokale Bibliothekssysteme oder die Verwendung als Zitationsgrundlage in Literaturdatenbanken für wissenschaftliche Arbeiten.
Gleichzeitig ermöglicht dieser Datenbestand zahlreiche tabellarische Auswertungen und Visualisierungen10 in Form von Diagrammen oder Karten über die Summe aller Artikel der Zeitschrift:
#DieDatenlaube versteht sich als ein fortlaufendes Begleitprojekt des Wikisource-Projektes für die Transkription und OCR-Korrektur von Die Gartenlaube der Jahrgänge 1853 bis 1899). Die systematische und strukturierte Beschreibung der Artikel der Zeitschrift in Wikidata war Ausgangspunkt und bleibt weiterhin eine Kernaufgabe, die laufend um neue „Baustellen‟ ergänzt wird wie beispielsweise:
Wikimedia Deutschland e.V.: Wikisource-Broschüre, 2019, (Q66818271), sowie https://blog.wikimedia.de/2019/10/16/hilfe-fuer-die-datenlaube-mit-wikisourcewikidata-die-freie-quellensammlung-verbessern/↩︎.
Projektstand per 01.11.2019 https://de.wikisource.org/wiki/Die_Gartenlaube#Projektstand↩︎.
https://de.wikisource.org/w/index.php?title=Diskussion:Die_Gartenlaube&oldid=3573624#Vorschlag_f%C3%BCr_ein_Basisdatenmodell_der_Artikel_der_Gartenlaube ↩︎.
Fauconnier, Sandra: Structured Data on Commons and GLAM - Wikimania 2019.pdf - Wikimania, 2019. Online: https://commons.wikimedia.org/wiki/File:Structured_Data_on_Commons_and_GLAM_-_Wikimania_2019.pdf.↩︎.
SPARQL-Query der entsprechenden Datensätze: https://w.wiki/Bds ↩︎.
Das „älteste‟ Gartenlaube-Item ist somit Q15892076, welches am 05.03.2014 von einem Bot lediglich mit dem Sitelink (keine Labels oder Statements) angelegt wurde. Das jüngste (per 14.11.2019) Item ist Q75015200↩︎.
Alle Berechnungen und Auswertungen finden sich im Jupyter-Notebook Analyzing_WikidataItems.ipynb↩︎.
Anzumerken sei noch, dass diese numerische Auswertung letztlich auch dem Umstand geschuldet ist, dass zum damaligen Zeitpunkt die Analyse von Items mittels ShapeExpressions noch nicht in Wikidata derart umgesetzt war, wie es zum gegenwärtigen Zeitpunkt mit Verwendung von EntitySchema möglich ist.↩︎.
QuickStatements wurde als Tool verwendet, da OpenRefine zwar für die Bearbeitung der großen Masse an Daten gewisse Vorteile und eine tabellarische Übersichtlichkeit gebracht hätte, allerdings ist das Anlegen neuer Items mit Sitelinks in ein Wikiprojekt mit OpenRefine (noch) nicht möglich. ↩︎.
Unterschiedliche Auswertungen und Visualisierungen werden auf der Wikisource Diskussionsseite der Gartenlaube dokumentiert: https://de.wikisource.org/wiki/Wikisource:Wikidata#Die_Gartenlaube_(Abfragen).↩︎.
Bemme, Jens: Hilfe für die Datenlaube: mit [[Wikisource+Wikidata]] die freie Quellensammlung verbessern. (2019) https://blog.wikimedia.de/2019/10/16/hilfe-fuer-die-datenlaube-mit-wikisourcewikidata-die-freie-quellensammlung-verbessern/ ↩︎.
Vgl. HistoDigitaLE an der Universität Leipzig, https://de.wikisource.org/wiki/Wikisource:OER↩︎.
Veröffentlicht: 18.11.2019, (Q75682119)