diedatenlaube.github.io

Blog of #DieDatenlaube

View My GitHub Profile

Die mehrsprachige Datenlaube – obersorbisch beispielsweise

Multilingualität ist eines der wesentlichen Merkmale von Wikidata. Knapp 600 Sprachen oder Varianten sind aktuell im offenen Knowledge Graph des Wiki*Versums verfügbar um die jeweiligen Datensätze mit einem Label, einer Beschriftung oder einem Variantennamen zu versehen, bzw. in spezifischen mehrsprachigen Datenfelder (bspw. die Felder ‚Titel‘ oder das Adress-Textfeld) Textwerte mit der zugrundeliegenden Sprache zu versehen.

Mehrsprachige Beschreibungen für Katalogdaten und Illustrationen

Die Mehrsprachigkeit von Wikidata legt auch offen aus welchen Sprach- und Kulturkreis bestimmte Items stammen oder ihnen zuzurechnen sind. Die bibliographischen Items der Datenlaube wurden beispielsweise bislang standardmäßig dreisprachig mit Labels und Beschreibungstexten in Deutsch, Englisch und Niederländisch erfasst. (vgl. Abb. 1.)

Abbildung 1: Labels und Descriptions von Gartenlaube-Items in deutsch, englisch, holländisch
Abbildung 1: Labels und Descriptions von Gartenlaube-Items in deutsch, englisch, holländisch für den Gartelbaube-Artikel 'An den Ufern der Salzach'(Q105315293).

 

Das Label von bibliographischen Items wird standardmäßig zumeist mit dem Originaltitel des vorliegenden Werkes versehen, weshalb es eher nicht zu einer Übersetzung des Titels in Zielsprachen kommt. Der Beschreibungstext hingegen erlaubt es in der jeweiligen Sprache anzuzeigen, was das vorliegende Item beschreiben möchte – beispielsweise einen (Zeitschriften)-Artikel (in deutscher Sprache) in der Zeitschrift ‚Die Gartenlaube‘ mit Publikationsjahr und Fundstelle (Heftnummer und/oder Seitenzahl).

Gerade für das Beschreibungsfeld, das sich bei bibliographischen Datensätzen nach einem sehr stringenten Muster aufbaut, ist die Anreicherung mit weiteren Sprachen leicht möglich. Für die (nieder- und ober-)sorbische Sprache wurden Beschreibungstexte ergänzt.

Abbildung 2: Tweet als Anstoß Gartenlaube-Items in sorbischer Sprache zu beschreiben https://twitter.com/juliannyca/status/1357422861695213569
Abbildung 2: Tweet als Anstoß Gartenlaube-Items in sorbischer Sprache zu beschreiben https://twitter.com/juliannyca/status/1357422861695213569

 

Auf Basis der in Abbildung 2 gezeigten Vorlage kann mittels SPARQL-Query eine Grundlage für neue Beschreibungstexte in nieder- und obersorbischer Sprache abgefragt und zum Import mittels QuickStatements verwendet werden.

Die selbe Vorgehensweise gilt auch für die mehrsprachigen Beschreibungstexte der Gartenlaube-Illustrationen in Wikimedia Commons wie in Abbildung 3 gezeigt.

Abbildung 3: Mehrsprachige Dateibeschreibungen in Wikimedia Commons
Abbildung 3: Mehrsprachige Dateibeschreibungen in Wikimedia Commons, hier im Bild: Metadaten für "Blick auf die Jungfraukette bei der Station Scheidegg." Illustration in: Die Gartenlaube (1893) S. 541.

Mehrsprachige Sacherschließung

Beschreibungstexte sind aber mehr eine Fingerübung und bieten gerade im vorliegenden Fall einen eher überschaubaren Mehrwert. Gänzlich anders verhält es sich, wenn man die mehrsprachige Verfügbarkeit von Item-Labels und Descriptions bei verlinkten Entitäten betrachtet. Gerade die für die inhaltliche Erschließung der Artikel verwendeten Schlagworte können, wenn sie denn übersetzt sind, ermöglichen auf Basis fremdsprachiger Einstiege nach inhaltlichen Bezügen in den (deutschsprachigen) Artikeln zu recherchieren.

Um hier einen Beitrag zu leisten, kann nach Schlagworten in Gartenlaube-Artikel abgefragt werden, die in einer bestimmten Zielsprache noch kein Label besitzen, der folgende Code-Block zeigt dies für die obersorbische Sprache, ausgenommen von den Schlagworten sind Personen-Items, da es hier bei den Labels abgesehen von kulturellen oder sprachlichen Erfordernissen nicht zu einer Übersetzung kommt.

SELECT DISTINCT ?schlagwort ?schlagwortLabel ?schlagwortLangLab WHERE {
  ?item wdt:P1433 wd:Q655617;
    wdt:P921 ?schlagwort.
  FILTER(NOT EXISTS {
    ?schlagwort rdfs:label ?schlagwortLangLab.
    FILTER((LANG(?schlagwortLangLab)) = "hsb") #Hier Sprachcode einbauen
  })
  MINUS { ?schlagwort wdt:P31 wd:Q5. }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

Datenpflege nach diesem Muster erlaubt es in Wikidata nach Artikeln der Gartenlaube zu recherchieren, deren Thema „Kamjenc“ (obersorbisch für Kamenz) ist.

SELECT ?item ?itemLabel ?schlagwortLangLab WITH { 
  SELECT DISTINCT ?item ?schlagwortLangLab WHERE {
  ?item wdt:P1433 wd:Q655617;
    wdt:P921 ?schlagwort.
  ?schlagwort rdfs:label ?schlagwortLangLab.
  FILTER((LANG(?schlagwortLangLab)) = "hsb")
 } } AS %results 
WHERE {
  INCLUDE %results.
  FILTER(CONTAINS(?schlagwortLangLab,"Kamjenc"))
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],hsb,en". }
}

Wikidata bietet Mehrsprachigkeit, da potentiell jedes Datenobjekt multilinguale Aussagen enthalten kann. So können Wikimedia- und andere offene Datenportale unterschiedlicher Sprach- und Kulturkreise, mit überschaubarem Aufwand Datenbestände anreichern und abfragen, um sie multilingual erfahr- und nutzbar zu machen.

Ein Blick auf die Mehrsprachigkeit

Zum Zeitpunkt (2020-02-05) lagen für die zur Beschreibung der Gartenlaube-Artikel verwendeten Schlagworte Labels in 424 verschiedenen Sprachen vor. Wie viele Schlagworte je Sprache dabei vorhanden sind zeigt das folgende Diagramm:

Abbildung 4: Verteilung der Labels der Gartenlaube-Schlagwörter nach den 25 häufigsten Sprachen.
Abbildung 4: Verteilung der Labels der Gartenlaube-Schlagwörter nach den 25 häufigsten Sprachen. (https://w.wiki/xzv)

 

Für 9.517 Schlagworte liegen deutsche Labels vor, gefolgt von 9.392 Items mit englischen Labels. Beispielsweise liegt hingegen mit tunesisch-arabischem Label am anderen Ende der Skala nur ein einziges Item vor. Knapp 1.500 Items verfügen über ein obersorbisches Label und 650 über ein niedersorbisches.

Verbessert die Mehrsprachigkeit!

Um abzufragen welche Schlagwortlabels der Gartenlaube noch nicht in eine bestimmte Sprache übersetzt sind, wählt man zuerst einen Sprachcode aus dieser Abfrage aus und setzt den Code in der Abfrage nach fehlenden Schlagwort-Labels ein. Und schon kann Labels zum Beispiel „ins Boarische iwasetzn“.

 

Christian Erlinger, 5. Februar 2021

Creative Commons Lizenzvertrag   Creative Commons Namensnennung 4.0 International Lizenz

Item dieses Artikels: (Q105332598)