Effizienter lernen, Ressourcen sparen
Forschungsteam entwickelt Methode zur Beschleunigung von Reinforcement Learning
05.12.2025
Roboter können lernen, Aufgaben zu erledigen. Dieser Lernprozess erfordert jedoch oft große Mengen an Daten und Rechenzeit. Forschende der TU Darmstadt haben nun einen Algorithmus entwickelt, der auch bei komplexen Aufgaben effizient arbeitet. Die Forschung ist Bestandteil des Exzellenzclusters „Reasonable Artificial Intelligence (RAI)".
Ähnlich wie Menschen können Roboter durch „Versuch und Irrtum“ lernen – sie probieren Dinge aus und erhalten dazu eine Rückmeldung: Richtige Entscheidungen führen zu einer Belohnung, falsche zu einer Bestrafung. So finden sie eine Strategie, die Belohnungen maximiert und zu kontinuierlicher Verbesserung führt. Mit dieser „Reinforcement Learning“ genannten Methode können Roboter selbstständig lernen Aufgaben zu lösen.
Ein Nachteil dieser Art des Lernens ist die sehr große Anzahl an Interaktionen, die das System sammeln muss, um davon zu lernen, und die oft bei mehreren Millionen liegt. Dies ist zeitintensiv und teuer, führt zum Verschleiß bei den Robotern und verhindert zudem, dass Roboter für das Lösen komplexer Aufgaben eingesetzt werden.
Vorstellung auf KI-Konferenz
Forschende um Daniel Palenicek vom Fachgebiet Intelligente Autonome Systeme (IAS) des Fachbereichs Informatik der TU Darmstadt haben einen Algorithmus entwickelt, der es ermöglicht, den aufwändigen Trainingsprozess zu stabilisieren und zu beschleunigen. Dies gelang ihnen, indem sie ein häufiges Problem behoben haben, den sogenannten „Verlust der Plastizität“. Ähnlich wie ein Mensch, der sich auf eine bestimmte Denkweise „festgefahren“ hat und keine neuen Informationen mehr aufnehmen kann, wird die KI durch intensives Training auf frühen Erfahrungen „lernresistent“ und kann nicht mehr von neuen Daten lernen. Um dem entgegenzuwirken und die Lernfähigkeit der KI zu erhalten, integrierten die Forschenden eine Kombination aus zwei verschieden Normalisierungs-Methoden. Zusammen wirken diese regulierend und stabilisierend auf das Training und helfen dabei die Lernfähigkeit zu erhalten und schlussendlich die Dateneffizienz einer Vielzahl von Aufgaben deutlich zu steigern.
Der Ansatz, Datenmengen und Interaktionen für das Reinforcement Learning zu reduzieren, ist ein wesentlicher Bestandteil des Exzellenzclusters RAI. Forschende arbeiten hier an der Entwicklung einer neuen Generation von KI-Systemen, die unter anderem auf vernünftiger Ressourcennutzung und kontinuierlicher Verbesserung basieren. „Wir versuchen, die Menge der benötigten Daten durch das Design unserer Algorithmen zu reduzieren“, sagt Palenicek. „Das spart sowohl Interaktionen mit dem echten System als auch Zeit, Rechenleistung und damit am Ende Energie und CO2.“
Die Studie „Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization” wird am 5. Dezember auf der renommierten Conference on Neural Information Processing Systems (NeurIPS) in San Diego (USA) vorgestellt. cst
Die Publikation
Daniel Palenicek, Florian Vogt, Joe Watson, Jan Peters: “Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization“, in: Advances in Neural Information Processing Systems 38 (NeurIPS 2025)
Über RAI
Der Exzellenzcluster RAI unter Federführung der Technischen Universität Darmstadt widmet sich der Entwicklung einer neuen Generation von KI-Systemen, die auf vernünftiger Ressourcennutzung, Datenschutz und kontinuierlicher Verbesserung basieren. Mit vier Forschungsbereichen arbeiten multidisziplinäre Teams an der Gestaltung der Zukunft der KI.