Computer und Tiere können auf ähnliche Arten lernen

Schach- und Go-Computer können durch sogenanntes bestärkendes Lernen selbstständig lernen, gut zu spielen. Der zugrundeliegende Prozess ähnelt der Art, wie Tiere lernen, etwa beim Suchen nach Strategien, die positive Empfindungen maximieren und Schmerz oder Hunger minimieren. Dieses Verhalten wird seit über einem Jahrhundert bei Menschen und anderen Tieren untersucht.

Ein Kind lernt Radfahren und Google probiert einen neuen Blauton für die Schrift der Suchtreffer aus: Was haben diese beiden Situationen gemein? Die Ähnlichkeiten sind so grundlegend, dass sie man sie leicht übersieht: Ein Akteur möchte ein Ziel erreichen; das Kind möchte vorwärtskommen, ohne hinzufallen, Google ist auf mehr Klicks aus. Beide interagieren mit ihrer Umgebung durch Versuch und Irrtum und lernen aus ihren Erfahrungen: „Wenn ich zu schnell fahre, falle ich vielleicht vom Rad“ oder „Auf Weblinks in dieser Farbe wird häufiger geklickt“.

Sich durch Ausprobieren ans Ziel annähern und für richtige Handlungen eine (oftmals zeitverzögerte) Belohnung bekommen: das sind charakteristische Merkmale des bestärkenden Lernens. In der Informatik ist bestärkendes Lernen neben dem überwachten und dem unüberwachten Lernen eines der drei grundlegenden Paradigmen des maschinellen Lernens. In seinen Grundzügen funktioniert es so: Ein Akteur entscheidet sich zwischen verschiedenen Handlungen, die seine aktuelle Situation verändern; das Kind etwa entscheidet sich (meist unbewusst) dafür, das Gewicht nach links zu verlagern oder schneller in die Pedale zu treten. Auf jede Aktion folgt eine Rückmeldung, zum Beispiel ein Sturz oder ein sichereres Fahrgefühl. Dieses Feedback weist ganz allmählich den Weg zum Ziel.

Von Hunden und Katzen zu Schachcomputern

Die Rückmeldungen für einen Computer oder Roboter sind natürlich abstrakter: Das Belohnungssignal wird in Zahlen ausgedrückt. Dabei ist der Gedanke, dass Computer durch Versuch und Irrtum lernen könnten, fast so alt wie die frühesten konkreten Überlegungen zu künstlicher Intelligenz: Mitte des 20. Jahrhunderts beschrieb Alan Turing die Idee, erfolgreiche Handlungen einer Maschine zu belohnen und erfolglose zu bestrafen. Fühlen Sie sich davon an Iwan Pawlows (1849-1936) Konditionierung von Hunden oder an Edward Thorndikes (1874-1949) Lernexperimente mit Katzen erinnert? Das ist das kein Zufall: Das Konzept des bestärkenden Lernens wurde tatsächlich vom frühen Behaviorismus inspiriert.
In den vergangenen Jahrzehnten konnte bestärkendes Lernen bemerkenswerte Erfolge feiern: Auf diese Weise trainierte Programme können hochkomplexe Spiele wie Go oder Schach bemerkenswert gut spielen. Auch beim autonomen Fahren wird bestärkendes Lernen verwendet. Und es dient dazu, Robotern Bewegungsabläufe beizubringen – etwa zu rennen oder Pfannkuchen zu wenden.

Die Algorithmen in unserem Gehirn verstehen

Der Serverraum am MPI für biologische Kybernetik dient unter anderem der Erforschung der Algorithmen des Gehirns.

Jörg Abendroth/MPI für biologische Kybernetik

Der Serverraum am MPI für biologische Kybernetik dient unter anderem der Erforschung der Algorithmen des Gehirns.

Jörg Abendroth/MPI für biologische Kybernetik

Das ist noch nicht alles: Mit dem präzisen Formalismus des bestärkenden Lernens kann man auch das Verhalten von Menschen und Tieren untersuchen. Neurowissenschaftler*innen finden immer mehr Hinweise darauf, dass manche Mechanismen in unserem Gehirn den Algorithmen des bestärkenden Lernens verblüffend ähneln. So kann man die Funktionsweise von Neurotransmittern besser verstehen: Dopamin beispielsweise belohnt das Gehirn nicht einfach mit guten Gefühlen, wie manchmal in den Medien behauptet wird, sondern es teilt vermutlich verschiedenen Bereichen des Gehirns mit, welche Belohnung zu erwarten ist. Diese Hypothese konnten Peter Dayan und andere dank der mathematischen Rigorosität des bestärkenden Lernens präzise formulieren.

Darüber hinaus analysiert Peter Dayans Abteilung Computational Neuroscience mit bestärkendem Lernen, wie Menschen und Tiere Vorhersagen treffen, ihre Umgebung beeinflussen, lernen und entscheiden: Wie sehr vertrauen wir unseren eigenen Einschätzungen? Wie entscheiden wir, welchen Film wir uns ansehen? Warum schieben wir manchmal unangenehme Aufgaben vor uns her? Wie treffen wir in unsicheren Situationen Entscheidungen? Was macht uns kreativ? Wie können solche Prozesse bei neurologischen und psychiatrischen Erkrankungen gestört sein? Dies sind nur wenige Beispiele aktueller Fragestellungen; bestärkendes Lernen hat sich als nützlich erwiesen, um eine enorme Bandbreite von Verhaltensweisen zu verstehen.