Digitalisiertes Mittelalter

Neues Wissen aus historischen Handschriften

03.11.2014 von

Die gewaltige Menge an Informationen unseres kulturellen Erbes stellt Geisteswissenschaftlerinnen und Geisteswissenschaftler immer wieder vor neue Herausforderungen. Am Institut für Sprach- und Literaturwissenschaft der TU Darmstadt läuft dazu ein Projekt, gefördert vom Bundesministerium für Bildung und Forschung (BMBF).

Die Fabulae von Avianus: Ein Fall auch für die Computerphilologie. Bild: Stadtbibliothek und Stadtarchiv Trier

Die Professorin für germanistische Computerphilologie Andrea Rapp und die wissenschaftliche Mitarbeiterin Celia Krause forschen an dem Projekt »eCodicology – Algorithmen zum automatischen Tagging mittelalterlicher Handschriften«. Das Projekt wird in Zusammenarbeit zwischen der Technischen Universität Darmstadt, dem Karlsruher Institut für Technologie und der Universität Trier durchgeführt.

Das Ziel ist die Entwicklung von Bilderkennungsalgorithmen, die Merkmale der Seitengestaltung in Digitalisaten mittelalterlicher Handschriften erkennen und diese Informationen in die Metadaten zu jeder Manuskriptseite automatisch einpflegen. Die Beschreibungen aus den früheren Handschriftenkatalogen können so ergänzt werden, und das Projekt liefert objektive Indizien für die Bewertung durch überprüfbare, wiederholbare Messergebnisse.

Vergleichbare Daten

Die kodikologischen Daten, die so erhoben werden, sind etwa Seitenformat, Textraumgröße, Anzahl der Zeilen, Beschriftungen, Register, Paratexte, Marginalien und Text-Bild-Beziehungen. So kann man Schreibschulen identifizieren oder feststellen, welche Schreiber die Handschriften verfasst haben. Es ist möglich, Fragmente zusammenzufügen, die Wertigkeit der Handschriften zu bestimmen, Unterschiede zwischen religiösen und weltlichen Texten zu erkennen und die diachronen Entwicklungslinien von Skriptorien auszumachen.

Erweiterung der Geisteswissenschaften

Die im Projekt entwickelte automatische Annotation der Digitalisate soll nicht den Blick in die Handschriften ersetzen, sondern erweitern. Geisteswissenschaftliche Forschungsfragen werden mit Computermethoden verfolgt, im Zusammenspiel verschiedener Wissenschaften an der Schnittstelle von qualitativen und quantitativen Forschungsmethoden.

Die Ergebnisse sollen abschließend zusammen mit den verwendeten Werkzeugen in einem »Datenrepositorium« frei zugänglich veröffentlicht werden als Grundlage für weitere Forschung und einen weltweiten, interdisziplinären Austausch von Wissenschaftlerinnen und Wissenschaftlern.

Die Auszeichnungssprache TEI ist eine spezielle Markup-Sprache für die Kodierung von Textdokumenten, benannt nach der Text Encoding Initiative, einem internationalen Konsortium, das sich die Entwicklung und Pflege eines Standards zur Repräsentation von Texten in digitaler Form als Ziel gesetzt hat.

Mit Markup-Sprachen kann sowohl die Struktur eines Dokuments mithilfe geeigneter Metadaten wiedergegeben werden, als auch bestimmte Eigenschaften und Inhalte. Diese Metadaten werden in Form von sogenannten Tags in die eigentlichen (Text-)Daten integriert und somit werden die Daten annotiert, also ausgezeichnet.

TEI stellt in ihren Guidelines Richtlinien für die Auszeichnung maschinenlesbarer Texte zusammen. TEI beruht auf der universellen Markup-Sprache XML. Ihr Vorteil ist, dass die annotierten Daten als einfache, plattformunabhängige Textdokumente vorliegen, die langfristig archivierbar sind.

Eine typische TEI-Datei gliedert sich in den TEI-Header und den annotierten Text (Body). Der TEI-Header beinhaltet Metainformationen über den annotierten Text und enthält alle bibliographischen, technischen und editorischen (Bei-)Texte wie Titelei, Widmungen, Bearbeiter oder Versionierungsdaten, während der Body den Hauptteil des annotierten Textes beinhaltet. TEI-annotierte Textdaten bilden die Grundlage für anspruchsvolle Editions- und Auswertungs-Projekte auch in den Sprach- und Literaturwissenschaften und liefern ein überaus nutzbringendes technisches Werkzeug für alle textbasiert arbeitenden Geisteswissenschaftlerinnen und -wissenschaftler.