Brücken zwischen Journalismus und Informatikforschung

Der Nutzen der automatischen Textanalyse

08.11.2016

Das Graduiertenkolleg „Adaptive Informationsaufbereitung aus heterogenen Quellen“ (AIPHES) an der TU Darmstadt veranstaltet am 11. November einen Workshop unter dem Titel „Journalismus trifft Informatikforschung”. Journalisten diverser Medien diskutieren mit den Promovierenden darüber, wie die Forschung in der Textverarbeitung die tägliche Recherchearbeit in Redaktionen unterstützen und weiterentwickeln kann.

Die Wissenschaftlerinnen und Wissenschaftler am Graduiertenkolleg AIPHES erforschen neuartige Methoden zur Informationsbereitung aus heterogenen Quellen. Im Bild (von links): Prof. Dr. Iryna Gurevych, Sprecherin des Graduiertenkollegs, Doktorandin Teresa Martin und Dr. Christian M. Meyer. Bild: Sandra Junker
Die Wissenschaftlerinnen und Wissenschaftler am Graduiertenkolleg AIPHES erforschen neuartige Methoden zur Informationsbereitung aus heterogenen Quellen. Im Bild (von links): Prof. Dr. Iryna Gurevych, Sprecherin des Graduiertenkollegs, Doktorandin Teresa Martin und Dr. Christian M. Meyer. Bild: Sandra Junker

Drei Fragen an Dr. Christian M. Meyer, Organisator des Workshops und Wissenschaftler am Ubiquitous Knowledge Processing Lab im Fachbereich Informatik.

Welche Welten finden bei dem Workshop zusammen?

Das Graduiertenkolleg AIPHES organisiert dieses Jahr eine besonders interessante Veranstaltung im Rahmen des wissenschaftlichen Austauschs: In Kooperation mit dem Forum für interdisziplinäre Forschung (FiF) der TU Darmstadt haben wir führende Experten aus Redaktionen und Journalismus eingeladen. Sie werden mit Promovierenden und assoziierten Forschenden neue Anknüpfungspunkte identifizieren, die sich von der Forschung in der automatisierten Informationsverarbeitung zur Anwendung im Journalismus ergeben. Der wissenschaftliche Nachwuchs wird dazu diverse konkrete Projekte vorstellen. Ziel ist eine beiderseitige Bereicherung und ein Beraten über zukünftige Einsatzgebiete und Entwicklungsmöglichkeiten von Informatikmethoden für Redakteure und Journalisten.

Warum ist die Forschung im Graduiertenkolleg AIPHES im Zeitalter schier grenzenlos verfügbarer Informationen relevant?

Dr. Christian M. Meyer. Bild: Sandra Junker
Dr. Christian M. Meyer. Bild: Sandra Junker

Am aktuellen Beispiel der Panama Papers wird deutlich: Heutzutage werden Datenmassen produziert, deren Inhalt einflussreich und hochbrisant ist – gleichzeitig ist es für Einzelpersonen aber geradezu unmöglich, den Inhalt all dieser E-Mails, Briefe und Urkunden innerhalb kurzer Zeit komplett durchzulesen und Schlüsse daraus zu ziehen. Automatische Methoden zur Textanalyse sind dagegen in der Lage, auch riesige Datenmengen zu verarbeiten und aufzubereiten.

Das Graduiertenkolleg AIPHES betreibt Grundlagenforschung zur automatischen Textanalyse, Strukturerfassung und Zusammenfassung von Informationen, die für zahlreiche praktische Anwendungen relevant sind. Gerade im Journalismus ist eine rein manuelle Auswertung kaum mehr praktikabel, da Recherchen unter sehr engen Zeitvorgaben stattfinden und dennoch eine schier explodierende Datenmenge bereitsteht, die aus hochgradig heterogenen Quellen unterschiedlichster Informationsqualität stammt. Effektive Informationsaufbereitung ist also erfolgsentscheidend für journalistische Tätigkeiten.

Wie ist das wissenschaftliche Kompetenznetzwerk zum Thema strukturiert?

Die isolierte Betrachtung von Methoden zur Informationsaufbereitung erscheint heute kaum mehr zeitgemäß. Im Graduiertenkolleg AIPHES kooperiert die TU Darmstadt daher standortübergreifend mit der Universität Heidelberg und dem Heidelberger Institut für Theoretische Studien (HITS) und bringt Forschende aus unterschiedlichen informatiknahen Fachgebieten zusammen: Sprachtechnologie, Computerlinguistik, Netzwerkanalyse und maschinelles Lernen sowie Informationsmanagement. AIPHES zielt darauf ab, Wissen aus heterogenen Textquellen automatisiert zu extrahieren und zu einem informativen und stilistisch homogenen Dossier aufbereiten, wobei eine Anpassung an unterschiedliche Textsorten, Sachgebiete, Nutzergruppen und Sprachen möglich sein soll.

Im Rahmen des Wissenstransfers gilt es, in Kooperation mit Journalisten und Redaktionen neue potenzielle Anwendungsfälle und Rückmeldungen zu Forschungsideen und -prototypen zu gewinnen. Wie spannend die Themenkombination sein kann, zeigte die „Daten-Labor 2015“-Fachtagung des netzwerk recherche e.V.

Meyer / feu

Nachrichtenflut automatisch filtern

Graduiertenkolleg der TU Darmstadt erforscht neue Methoden des maschinellen Lernens

Die Menge an Daten, die täglich auf Nachrichtenseiten, in sozialen Netzwerken und Blogs publiziert werden, ist für Menschen schon lange nicht mehr überschaubar. Daher erforschen Wissenschaftler im Graduiertenkolleg AIPHES an der TU Darmstadt neue Methoden, um die gewaltigen Mengen an Daten aufzubereiten und so für Menschen nutzbar zu machen. Ihr Ziel ist es, Verfahren zu entwickeln, die aus verschiedensten Quellen und zu unterschiedlichsten Themen automatisiert Zusammenfassungen erstellen können.

Eine zentrale Herausforderung bei der Erstellung einer Zusammenfassung ist die Bewertung der Wichtigkeit von Informationen. Welche Informationen sollen in der Zusammenfassung enthalten sein? Welche sind nebensächlich und können weggelassen werden? Welche Informationen sind allgemein bekannt und müssen daher nicht in die Zusammenfassung? Was für Menschen im Einzelnen einfach ist, ist für Computer eine schwere Aufgabe. Das natürliche Verständnis für Sprache, das Menschen nutzen, um Zusammenfassungen zu erstellen, fehlt dem Computer bisher. Die Wissenschaftler entwickeln daher Verfahren, um Computern dieses Verständnis zu vermitteln.

Es ist dabei nicht möglich, einem Computer detailliert zu beschreiben, wie Zusammenfassungen erstellt werden. Solche Kondensate sind eine komplexe Aufgabe, deren Ablauf sich nicht mit einem festen Schema beschreiben lässt. Je nach Thema sind andere Aspekte wichtig und zukünftige interessante Themen sind nicht vorhersehbar. Wer hätte vor einem Jahr gedacht, dass Menschen an einer Zusammenfassung zum Thema „VW-Abgasskandal“ interessiert sein werden?

Daher erforschen die Darmstädter Methoden des maschinellen Lernens und der automatischen Sprachverarbeitung, um Computer zu befähigen, die Bewältigung der Aufgabe selbständig zu erlernen. Genau wie Hunden ein bestimmtes Verhalten antrainiert werden kann, trainieren die Wissenschaftler Computer. Der Nachwuchswissenschaftler Markus Zopf instruierte so einen Computer mit Hilfe von 100.000 Paaren von Nachrichtenartikeln und dafür geschriebenen Zusammenfassungen. Der Computer kann mithilfe eines neu entwickelten Verfahrens aus diesen Daten selbständig lernen, welche Informationen wichtig sind und das gelernte Wissen auf neue Texte anwenden.

Zopfs Kollege Maxime Peyrard hat in seiner Arbeit gezeigt, dass es ausreicht, die Wichtigkeit einzelner Sätze anstatt kompletter Zusammenfassungen zu bewerten, um gute Zusammenfassungen zu erstellen. Dadurch wird ein komplexes Problem auf mehrere kleinere Probleme aufgeteilt und somit leichter lösbar.

GRK 1994 / feu

Maxime Peyrard (li.) und Markus Zopf entwickeln am Graduiertenkolleg AIPHES neue Verfahren für die automatische Textanalyse. Bild: Sandra Junker
Maxime Peyrard (li.) und Markus Zopf entwickeln am Graduiertenkolleg AIPHES neue Verfahren für die automatische Textanalyse. Bild: Sandra Junker