Blog of #DieDatenlaube
Im Nachfolgenden möchte ich kurz skizzieren, was man mit den tollen “Die Gartenlaube”-Wikisource-Dumps in JSON so anfangen könnte, zunächst erstmal für eine schnöde Textanalyse, mit derer Hilfe aber neue Forschungsfragen und Tutorials entstehen (können), z.B. was cooles mit dem Natural Language Toolkit.
wget -O gartenlaube_1891.json https://zenodo.org/record/5787665/files/GartenlaubeSeitenText_Kategorie:Die%20Gartenlaube%20%281891%29_1639446194.json?download=1
$filename="insert_words.sql"; if (!$fp = fopen($filename, "a")) { print "Kann die Datei $filename nicht öffnen"; exit; } if ($file = fopen("gartenlaube_1891.json", "r")) { while(!feof($file)) { $line = fgets($file); # do same stuff with the $line $linearray = explode(" ", $line); foreach( $linearray as $word){ fwrite($fp, "insert into words_bulk (word) values ('".addslashes(strip_tags($word))."');\n"); } } fclose($file); } fclose($fp);Nachdem das Skript gegen die Datenbank gelaufen lassen worden ist, erfolgten erste Bereinigungen, die immer noch mit dem im Sourcefile enthaltenen HTML-Code zusammenhängen.
SELECT concat('insert into words (word) values (''',word,''');') FROM words_bulk GROUP BY word;
UPDATE words SET typ='noun' WHERE word REGEXP BINARY '[A-Z]';
- Diese "noun" bin ich dann einfach durchgegangen:
Matthias Erfurth, 28. Dezember 2021
Creative Commons Namensnennung 4.0 International Lizenz