Sehlehrer für Computer

Professor Stefan Roth lehrt Algorithmen, Gegenstände zu erkennen

05.01.2018 von

In digitalen Bildern und Videos steckt sehr viel mehr Information, als Computer derzeit aus ihnen gewinnen. Mit Hilfe lernfähiger Algorithmen will ein Forscherteam um Professor Stefan Roth ein Maximum an Wissen aus Bildern ziehen.

Professor Stefan Roth. Bild: Katrin Binner

Auf dem Bildschirm im Büro von Stefan Roth ist eine typische Straßenszene zu sehen – aber aus dem „Blickwinkel“ eines Computers. Rot eingefärbte Autos parken ein und aus, violette Fußgänger wuseln umher, grün markierte Pflanzen kennzeichnen den Straßenrand. „Für den Computer besteht ein Video erst einmal nur aus Pixeln“, erklärt Informatik-Professor Stefan Roth. „Wir bringen ihm bei, Pixel zu interpretieren“, sagt der Leiter des Visual Inference Labs am Fachbereich Informatik der Technischen Universität Darmstadt.

Roths Team lehrt lernfähigen Algorithmen, Autos, Fußgänger oder etwa potenziell gefährliche Gegenstände auf Röntgenbildern aus der Passagierkontrolle zu erkennen. Auch die Bildinformation, die sich hinter Verwacklungen oder Unschärfe verbirgt, rekonstruiert die von den Darmstädtern entwickelte Software. Die Forschungsfrage, die sie leitet: Wie viel Information lässt sich aus einem digitalen Bild herausholen?

Der Bedarf an automatischer Bildanalyse ist enorm. Millionen von digitalen Kameras erzeugen eine beispiellose Bilderflut. Könnten Computer nicht nur geordnete Straßenszenen, wie auf einer Autobahn, sondern auch chaotisch anmutendes Verkehrsgeschehen, etwa an einer Kreuzung, zuverlässig interpretieren, „dann wäre auch in belebten Innenstädten vollständig autonomes Fahren möglich“, sagt Roth. Und es gäbe viele weitere potenzielle Anwendungsfelder. Intelligente Bildanalysesysteme könnten Nutzer bei ermüdenden Tätigkeiten, etwa die Gepäckkontrolle an Flughäfen, unterstützen. Aus Satellitenbildern kann eine Flächen-Nutzung automatisch erkannt werden, beispielsweise auf welchen Feldern Weizen wächst.

Doch Computern das Sehen zu lehren, ist schwer. Vor Jahrzehnten versuchten Forscher, die menschliche Wahrnehmung nachzuprogrammieren. Doch sie scheiterten bislang weitgehend. „Heutige Ansätze sind sehr stark datengetrieben“, sagt Roth. Computer lernen anhand einer Masse von Beispielen. Grundlage sind oft so genannte künstliche neuronale Netze. Diese sind inspiriert vom Aufbau des Gehirns: Nervenzellen, im Fachdeutsch Neuronen genannt, untereinander verbunden durch Nervenbahnen. Zeigt man einem solchen Netz Fotos mit Autos, dann stärken wiederkehrende Muster – Karosserie, Räder, Scheinwerfer – bestimmte Nervenbahnen. Tauchen ähnliche Muster auf unbekannten Fotos auf, werden über die verstärkten Nervenbahnen die gleichen Neuronen aktiv wie beim Training:

Das neuronale Netz hat gelernt, auf Bildern Autos zu erkennen. Oder eben Fußgänger und Pflanzentöpfe. Der Haken: Beim Training muss man dem Computer auf jedem Beispielbild im wahrsten Wort sinn zeigen, wo das Auto, wo der Fußgänger und wo der Pflanzentopf ist. „Dafür haben wir anfangs eineinhalb Stunden pro Bild gebraucht“, berichtet Roth. Weil Computer erst nach Zigtausenden von Beispielen Dinge zuverlässig erkennen, sei das nicht immer praktikabel. „Wir versuchen daher erstens mit weniger Daten auszukommen und zweitens, Datenquellen zu erschließen, in denen ein Teil der Information schon steckt.“ So zeigen Computerspiele zum Verwechseln realistische Straßenszenen. Auf einem Foto einer realen Szene müssen die Forscher erst mühsam die Einzelobjekte voneinander abgrenzen, sprich ihre Konturen nachzeichnen. „Im Computerspiel hingegen sind die einzelnen Objekte schon getrennt“, erklärt Roth. Man müsse dem neuronalen Netz nur noch sagen, was davon als Auto oder was als Straßenbelag zu bewerten ist.

Um mit weniger Daten auszukommen, lassen sich die Forscher weitere Tricks einfallen. „Anhand der im Computerspiel enthaltenen Information weiß man, welches schon bekannte Objekt zu einem späteren Zeitpunkt nochmal erscheint“, erklärt Roth. So muss das Objekt, etwa ein bestimmtes Auto, nicht mehr auf jedem Einzelbild einer Videosequenz neu markiert werden. Dass die Darmstädter mit ihren Ansätzen erfolgreich sind, beweist das vom Computer interpretierte Video einer belebten Einkaufsstraße.

Selbst in der Straßenflucht weit entfernte Fußgänger und Fahrzeuge werden erkannt. Ähnlich beeindruckt die Informationsfülle, die von Roths Team trainierte Algorithmen aus verschwommenen Fotos herausziehen. Selbst die Risse im Fels, vor dem ein Steinbock steht, werden wieder sichtbar. In einem Bild der Berliner Siegessäule zoomt Roth zum Lorbeerkranz, den die Statue der Viktoria in die Höhe hält. Zunächst nur unscharf, erkennt man nach der Bearbeitung einzelne Blätter. Allerdings hat der Computer weder Blätter noch Felsrisse erkannt, sondern die Störung an sich auf der Pixel-Ebene.

„Der Rechner sieht sich Nachbarschaften von Pixeln an und untersucht deren Statistik“, erklärt Roth. Auf einem ungestörten Bild tauchen in solchen Nachbarschaften beispielsweise typische Kontrastunterschiede auf. Diese Statistik lernt der Computer anhand vieler Beispiele. Weicht ein Bild von diesen typischen Verteilungen ab, passt es der Rechner an den Normalfall an. Das Ziel der Forscher ist eine universelle Korrekturmethode für Verwacklungen, Bewegungsunschärfe und andere ungewollte Bildeffekte. „Dadurch könnte man die Bildqualität weiter steigern, und das mit der Rechenkraft eines Smartphones“, stellt Roth in Aussicht.

Auch neue Funktionen könnten so realisiert werden, etwa ein Schärfentiefeneffekt, wie bei Spiegelreflexkameras. Ganz frei von Artefakten sind die korrigierten Bilder indes noch nicht. „Viel Forschungsbedarf besteht auch weiterhin”, sagt Roth. Die Zuverlässigkeit von computerinterpretierten Bildern ist ein zentraler Punkt in Roths Forschung. „Davon wird die Akzeptanz des autonomen Fahrens abhängen.“ Wurde die Bewegung des Fußgängers richtig vorhergesagt? Erkennt der Rechner einen Blumentrog am Straßenrand in Rom genauso zuverlässig wie in Darmstadt? „Die Herausforderung ist, die Dinge gut genug zu erkennen, damit das System nicht zu oft wegen Unsicherheit bremst“, sagt Roth. Er ist optimistisch, dass das gelingt. Die Darmstädter sind sehr einfallsreich darin, Computern das Sehen beizubringen. Die Grenzen der Wahrnehmungsfähigkeit der Maschinen seien noch nicht absehbar, meint Roth.

Weitere spannende Artikel in der hoch³forschen 4/2017: