Prof. Ernesto De Luca in der Bibliothek der Uni Magdeburg (Foto: Jana Dünnhaupt / Uni Magdeburg)
20.08.2021 aus 
Forschung + Transfer
Zwei Welten zusammenbringen

Wir leben in einer Welt, die sich rasant verändert. Wie wir kommunizieren, uns informieren, einkaufen und produzieren – all das und noch viel mehr ist vom digitalen Wandel geprägt. Auch in der Forschung sind die Veränderungen durch neue Werkzeuge, Methoden und Möglichkeiten allgegenwärtig. Der Computerlinguist Prof. Dr.-Ing. Ernesto William De Luca arbeitet an den Schnittstellen von Informatik und Geisteswissenschaften. Er weiß: Die Chancen für neuen Erkenntnisgewinn sind enorm, aber viele Forschungsfelder müssen noch einen Zugang zur Digitalisierung und eine gemeinsame Sprache finden.

Seit 2019 ist Ernesto William De Luca Professor für Digital Transformation and Digital Humanities an der Otto-von-Guericke-Universität Magdeburg. Gleichzeitig leitet er die Abteilung Digitale Informations- und Forschungsinfrastrukturen am Georg-Eckert-Institut für internationale Schulbuchforschung (GEI) in Braunschweig und verbindet damit universitäre und außeruniversitäre Forschung. Die mehr als 180.000 Schulbücher und 74.000 wissenschaftlichen Bücher der Sammlung sind ein gutes Beispiel dafür, welche Möglichkeiten digitale Methoden in der Wissenschaft bieten und welche Hürden De Luca und seine Kolleginnen und Kollegen noch nehmen müssen, um die Sammlung digital zugänglich und wissenschaftlich verwertbar zu machen. Die Bücher sind ganz eigene Zeitdokumente, die viel über die politischen Ansichten ihrer Zeit, über gesellschaftliche oder ökonomische Entwicklungen verraten. Die großen Datenmengen, die sie liefern, können mit neuen Analysewerkzeugen besser zugänglich gemacht werden.

„Wir sprechen zwei unterschiedliche Sprachen“, erklärt De Luca und meint damit die Informatik und die Geisteswissenschaften. „Wie können wir uns trotzdem verstehen?“, fragt er sich und sucht im noch jungen Forschungsfeld der Digital Humanities nach Lösungen. Dafür untersucht er, wie computergestützte Verfahren und digitale Ressourcen Antworten auf geistes- und kulturwissenschaftliche Forschungsfragen liefern können. Und wie eine entsprechende digitale Infrastruktur aufgebaut werden kann. De Luca versteht sich als Brückenbauer, der seine Expertise nutzt, um beide Forschungsfelder miteinander zu verbinden.

Bücher erzählen mehr als Geschichten 

Wenn es um Digitalisierung geht, ist das GEI, an dem 125 Mitarbeiter aus der Geschichte, der Kunstgeschichte und der Informatik zusammenarbeiten, Vorreiter. In einem langfristig angelegten Projekt bietet das Institut die Digitalisate, aller in den deutschen Bibliotheken noch vorhandenen, oft schwer zugänglichen Schulbücher seit dem 17. Jahrhundert bis 1920 an. Mehr als eine Million Schulbuchseiten sind bereits digital verfügbar. Für die historische und kulturwissenschaftliche Forschung ist diese digitalisierte Sammlung (GEI-Digital) ein enormer Wissensschatz, den sie gemeinsam mit der Informatik heben kann.

„Für eine komplette qualitative Analyse eines Schulbuchs benötigt ein Geisteswissenschaftler drei bis vier Monate“, sagt Ernesto William De Luca. Als „close reading“ bezeichnet die Fachwelt diese Methode, bei der die Texte sorgfältig gelesen, detailliert interpretiert und beispielsweise die Reihenfolge der Sätze und Wörter genau beachtet wird. Das Gegenstück dazu ist das sogenannte „distant reading“, mit dem mittels digitaler Instrumente große Textmengen quantitativ analysiert werden. Beide Methoden ergänzen sich und erlauben neue Einsichten in Texte. Beide Verfahren nutzen De Luca und seine Kolleginnen und Kollegen in einem aktuellen Forschungsprojekt zur Demokratiebildung in den Schulen.

Bücherstapel in der Bibliothek (c) Hannah Theile Uni MagdeburgDas Team von Prof. De Luca analysiert Bücher mit Hilfe von digitalen Tools. (Foto: Hannah Theile / Uni Magdeburg)

Dazu analysieren die Geisteswissenschaftler die Schulbücher auf klassischem Wege und werden dabei von Informatikern unterstützt, die digitale Instrumente beisteuern. Mit diesen neuen Werkzeugen sind plötzlich ganz andere Untersuchungen möglich. Die digitalisierten und mit Schlagworten versehenen Schulbücher können ganz gezielt nach Begriffen durchsucht werden:

All das kann nun schnell und umfangreich ermittelt werden. Anschließend nutzen Geisteswissenschaftler die so erlangten Statistiken für eine tiefer gehende, qualitative Analyse, die deutlich über Wordclouds hinausgeht. „Mit der digitalen Ebene können neue Zusammenhänge sichtbar werden“, betont Ernesto William De Luca. Doch bevor es soweit ist, ist viel Forschungsarbeit nötig. Allein mit dem Scannen der Dokumente ist es bei weitem nicht getan.

„Die Digitalisierung findet auf drei unterschiedlichen Ebenen statt“, erklärt De Luca. Im Englischen gibt es dafür auch drei Begriffe, im Deutschen dagegen nur zwei. Die Umwandlung eines analogen Wertes – etwa eines Buches, eines Bildes oder einer Tonaufnahme – in ein digitales Format wird im Englischen beschrieben durch den Begriff „Digitisation“. „Digitalisation“ hingegen ist der Prozess, der diese digitalen Produkte zur Verfügung stellt. Etwa durch Datenbanken, über die Dokumente digital abgerufen werden können. Im Deutschen werden beide Begriffe zur „Digitalisierung“ zusammengefasst. „Wenn ich mit der Bibliotheksleiterin über Digitalisierung spreche, kann das durchaus zu Missverständnissen führen“, beschreibt Ernesto William De Luca den Nachteil dieser sprachlichen Ungenauigkeit. Die dritte Ebene ist schließlich die digitale Transformation – auch digitaler Wandel –, die weitreichende Veränderungsprozesse in der Gesellschaft beschreibt.

Unterricht für Künstliche Intelligenz

Um möglichst präzise Instrumente zu entwickeln, nutzen Ernesto William De Luca und sein Team auch Verfahren der Künstlichen Intelligenz. Über Lernalgorithmen schulen sie ihre Programme, die jedes Wort und jeden Satz fehlerfrei erkennen müssen. „Die Optic Character Recognition ist eine unserer größten Herausforderungen“, verrät der Forscher. Der Unterschied zwischen einer „8“ und einem „B“ kann beispielsweise schwierig zu erkennen sein. Die Programme müssen so trainiert werden, dass sie einzelne Buchstaben, Buchstabenreihenfolgen und Wörter aus den ihnen zur Verfügung stehenden Pixeln richtig identifizieren können.

Und es gibt noch eine weitere Hürde für die Entwickler der Werkzeuge zur Texterkennung. „Sprache entwickelt sich“, erklärt Ernesto William De Luca. „Ein Wort kann sich im Laufe der Jahre verändern.“ Ob Cäsar, Caesar oder César – die von Informatikern entwickelten digitalen Analysewerkzeuge müssen erkennen, dass alle drei Worte dieselbe Bedeutung haben. Nur dann können Historiker oder Sprachwissenschaftler die Texte mit ihrer Hilfe korrekt analysieren und deuten. Für die Computerwissenschaftler bedeutet das „jede Menge Arbeit“, wie De Luca sagt. Zumal sich nicht nur die Sprache, sondern auch die Schrift im Laufe der Zeit ändert. Ein digitales Werkzeug muss die Sütterlinschrift genauso exakt erkennen und einordnen können wie alle anderen Schreib- und Druckschriften. Das älteste Schulbuch am GEI stammt immerhin aus dem Jahr 1648.

Umfang und Schnelligkeit sind ohne Frage die großen Vorteile der neuen Methoden, die die Informatik in andere Bereiche der Wissenschaft trägt und Forschung damit verändert. Ernesto William De Luca fügt noch einen weiteren hinzu: „Ein Wissenschaftler aus Mexiko, der ein Buch aus dem GEI untersuchen möchte, muss nicht extra hierherfliegen und sich das Buch ausleihen. Er kann ganz bequem vom eigenen Computer darauf zugreifen. Digitalisierung macht Dokumente zugänglich – weltweit und zu jeder Zeit.“

Wussten Sie, dass...

Autor:in: Heike Kampe
Quelle: GUERICKE ´20
Weiterführende Links: