Wissenschaft

anyOCR – Intelligente Texterkennung steuert das „Narrenschiff“ ins digitale Zeitalter

15.04.2015

DFKI Bremen Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Kaiserslautern: Das „Narrenschiff“, eine Moralsatire aus dem 15. Jahrhundert, war ein vielfach aufgelegter Bestseller seiner Zeit. Wissenschaftler des Digital-Humanities-Zentrums KALLIMACHOS der Unibibliothek Würzburg machen das Schiff nun flott für das 21. Jahrhundert. Mit an Bord sind Forscher des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI): Sie machen die anspruchsvollen Texte und Frakturschriften mittels lernfähiger Analysesysteme für Computer lesbar.

Seit Oktober 2014 vereint KALLIMACHOS Geisteswissenschaftler, Informatiker und Bibliothekare, um gemeinsam ein Zentrum für digitale Geisteswissenschaften - Digital Humanities oder auch eHumanities - aufzubauen. Durch computergestützte Verfahren und den systematischen Einsatz digitaler Ressourcen soll eine technische und soziale Infrastruktur erarbeitet werden, die Wissenschaftler bei digitalen Editionen von Büchern, Textanalysen oder der Visualisierung von Datenstrukturen unterstützt.

Der Forschungsbereich Wissensmanagement des DFKI in Kaiserslautern entwickelt die Optische Zeichenerkennung (Optical Character Recognition - OCR) für das interdisziplinäre Zentrum. Das „Narrenschiff“ ist das erste Anwendungsdokument. Die Moralsatire des Basler Autors Sebastian Brant aus dem späten 15. Jahrhundert gilt als Schlüsselstück der Frühen Neuzeit und war seinerzeit ein großer Erfolg. Seine Erstausgabe wurde 1494 in deutscher Sprache in Basel gedruckt und erschien kurze Zeit danach in ganz Europa in Form von Neuauflagen, Raubdrucken sowie Übersetzungen ins Lateinische, Niederdeutsche, Französische, Niederländische und Englische.
Die Texte aus dem Narrenschiff, die als Scans vorliegen, sollen mit der intelligenten Texterkennung aus dem DFKI automatisiert in eine computerlesbare Form übertragen werden. „Wegen der Frakturschriften, die seinerzeit verwendet wurden, ist das nicht ganz einfach“, sagt Brigitte Burrichter, Professorin für französische und italienische Literaturwissenschaft an der Universität Würzburg. Hinzu komme, dass damals jede Druckerei ihr ganz eigenes Schriftbild produzierte. Weitere Herausforderungen an die Software sind auch die andere Layoutstruktur historischer Dokumente sowie unvollständige Zeichen, vergilbtes Papier, die Empfindlichkeit der antiken Bücher oder die alte Ausdrucks- und Schreibweise, beispielsweise in alt- oder mittelhochdeutschen Texten.

„anyOCR“ – Lernfähige Texterkennungssysteme
Für die DFKI-Wissenschaftler ist das Narrenschiff ein beispielhaftes, anspruchsvolles Anwendungsszenario für ihre lernfähigen Erkennungssysteme: „Um derart alte und variantenreiche Texte wie das Narrenschiff zu analysieren sind intelligente und selbstlernende Algorithmen erforderlich, die in der Lage sind sich jedem Schriftbild anzupassen und sich selbst zu verbessern“, sagt Prof. Dr. Andreas Dengel, Wissenschaftlicher Direktor des DFKI-Forschungsbereichs Wissensmanagement. Die DFKI-Forscher entwickeln sogenannte „anyOCR“-Systeme, die sich automatisch an die unterschiedlichen Bedürfnisse und spezifischen Probleme bei der Erkennung historischer Druckschriften adaptieren. Weitere Werkzeuge und Verfahren zur Mustererkennung und statistischen Sprachmodellierung für KALLIMACHOS sollen als Open-Source-Komponenten in die bereits vorhandenen Infrastrukturen integriert werden. (Pressemeldung vom 15.04.2015)

Quelle: Deutsches Forschungszentrum für Künstliche Intelligenz GmbH | Foto: DFKI
FIRMENGLOSSAR auf nordic market
PRODUKTGLOSSAR auf nordic market