Einleitung:
In der Welt der künstlichen Intelligenz hat sich das bestärkende Lernen als besonders mächtige Technologie etabliert, die über die bloße Datenanalyse hinausgeht. Am Beispiel von DeepMind’s AlphaGo zeigt sich, wie Maschinen kreative Strategien entwickeln können, die sogar erfahrene Experten überraschen. Unternehmen setzen häufig auf traditionelle maschinelle Lernverfahren zur Vorhersage von Ergebnissen. Doch das bestärkende Lernen eröffnet neue Möglichkeiten: Prozesse, die dynamisch und komplex sind, können effizienter automatisiert und optimiert werden. Dies birgt enormes Potenzial, besonders in datenintensiven und sich schnell verändernden Branchen.
Lee Sedol, ein Go-Champion von Weltklasse, war ziemlich überrascht vom 37. Zug, den Deepminds AlphaGo im zweiten Match der berühmten Serie von 2016 machte. So verblüfft, dass er fast 15 Minuten brauchte, um eine Antwort zu formulieren. Auch andere erfahrene Go-Spieler fanden den Zug seltsam und meinten, es handele sich um einen Fehler. Das war ein echt gutes Beispiel dafür, wie ein Algorithmus der künstlichen Intelligenz etwas lernte, was über die reine Mustererkennung in Daten hinausging. Er hat nämlich eine Strategie entwickelt und sogar kreativ gedacht. Die Entwickler von DeepMind haben AlphaGo nicht nur mit Beispielen von Go-Champions gefüttert, die Spiele spielten, sondern auch viele Millionen Spiele gegen sich selbst laufen lassen. Während dieser Spiele hatte das System die Möglichkeit, neue Züge und Strategien zu erforschen und dann zu checken, ob sie die Leistung verbessern. Durch all diese Versuche und Irrtümer entdeckte es eine Spielweise, die selbst die besten Spieler der Welt überraschte.
Wenn diese KI also kreative Fähigkeiten hat, ist sie anders als die Chatbots und Vorhersagemodelle, mit denen die meisten Unternehmen am Ende arbeiten, wenn sie maschinelles Lernen anwenden. Anstatt historische Daten zu nutzen, um Vorhersagen zu treffen, setzen Spielsysteme wie AlphaGo auf verstärkendes Lernen. Das ist eine ausgereifte Technologie des maschinellen Lernens, die besonders gut darin ist, Aufgaben zu optimieren. Im Laufe der Zeit führt ein Agent also eine Reihe von Aktionen aus, wobei jede Aktion durch das Ergebnis der vorherigen Aktion beeinflusst wird. Kurz gesagt, es werden verschiedene Ansätze ausprobiert und die, die besser funktionieren als die anderen, werden übernommen und verstärkt. Mit genügend Versuchen kannst du deinen Weg zum Sieg über deinen derzeit besten Ansatz verstärken und so einen neuen besten Weg zur Erfüllung deiner Aufgabe entdecken.
Related Post: Wie Unternehmen durch Künstliche Intelligenz ihre Zukunft gestalten können
Trotzdem wird bestärkendes Lernen bisher vor allem in der Wissenschaft und in speziellen Bereichen wie Videospielen und Robotik eingesetzt. Unternehmen wie Netflix, Spotify und Google setzen es schon ein, aber die meisten anderen hinken noch hinterher. Trotzdem gibt es immer Möglichkeiten. Jedes Mal, wenn man nacheinander Entscheidungen treffen muss, kann man bestärkendes Lernen nutzen. KI-Praktiker nennen das sequenzielle Entscheidungsaufgaben.
Denkt mal an die ganzen Probleme in der realen Welt, bei denen man im Laufe der Zeit entscheiden muss, wie man handeln soll, wo es etwas zu maximieren (oder zu minimieren) gibt und wo es keine eindeutige Lösung gibt. Zum Beispiel:
Wie leitet man den Datenverkehr am besten auf verschiedene Server weiter oder entscheidet, welche Server in einem Rechenzentrum ausgeschaltet werden sollen?
Wie entscheidet man beim Aufbau eines Moleküls in einer Simulation zur Entwicklung eines bahnbrechenden Medikaments, welches Reagenz als nächstes hinzugefügt werden soll?
Wie kann man am besten über den Tag verteilt kleine Aufträge verkaufen, um den Kursverfall einer Aktie zu minimieren, wenn man eine große Menge davon verkaufen möchte?
Related Post: Wie ChatGPT Führungskräfte dabei unterstützen kann, bessere Entscheidungen zu treffen
Als Chef will man ja viele Prozesse automatisieren oder optimieren, aber die sind oft zu dynamisch oder haben zu viele Ausnahmen und Grenzfälle, um sie in eine Software zu programmieren. Algorithmen des bestärkenden Lernens können durch Versuch und Irrtum selbst die dynamischsten Optimierungsprobleme lösen und so neue Wege für die Automatisierung und Personalisierung in sich schnell verändernden Umgebungen eröffnen.
Was bestärkendes Lernen kann
Viele Unternehmen denken, dass maschinelle Lernsysteme nur für Vorhersagen da sind. Sie nutzen Algorithmen, um zum Beispiel den Cashflow oder die Kundenabwanderung vorherzusagen. Dabei schauen sie sich Daten wie Transaktionsmuster oder das Verhalten bei der Website-Analyse an. Diese Systeme arbeiten in der Regel mit überwachten maschinellen Lernverfahren. Beim überwachten Lernen wird in der Regel eine Vorhersage getroffen. Ich schätze, die Aktie wird in den nächsten sechs Stunden um vier Punkte steigen. Und dann kommt die tatsächliche Antwort: Die Aktie ist tatsächlich um drei Punkte gestiegen. Das System lernt, indem es seine Zuordnung zwischen Eingabedaten – wie den früheren Kursen derselben Aktie und möglicherweise anderer Aktien und Indikatoren – und der Ausgabevorhersage aktualisiert. So kann es eine bessere Übereinstimmung mit der tatsächlichen Antwort, der sogenannten Grundwahrheit, erzielen.
Related Post: Die Demokratisierung der Innovation durch Generative KI: Chancen und Herausforderungen
Beim bestärkenden Lernen gibt es aber keine richtige Antwort, von der man lernen kann. Bestärkende Lernsysteme zeigen uns, was wir tun sollen, nicht was wir tun werden – sie schlagen vor, was wir tun sollten, um eine bestimmte Messgröße zu optimieren (oder zu minimieren). Man kann nur gucken, wie gut man eine bestimmte Aufgabe erledigt hat und ob man sie schneller oder effizienter als zuvor erledigt hat. Diese Systeme lernen am besten, wenn sie schnell ausprobieren können, was sie tun sollen, und dann Feedback bekommen. Ein Börsenalgorithmus, der täglich Hunderte von Aktionen ausführt, ist ein gutes Beispiel dafür. Aber ein Algorithmus, der über fünf Jahre hinweg den Customer Lifetime Value optimieren soll, aber nur unregelmäßig mit den Kunden interagiert, funktioniert damit nicht so gut. Sie brauchen keine Berge von historischen Daten, weil sie im Laufe der Zeit experimentieren und ihre eigenen Daten erstellen.
Sie können also dafür eingesetzt werden, Prozesse zu automatisieren, zum Beispiel das Einlegen von Gegenständen in einen Versandbehälter mit einem Roboterarm. Oder sie können dafür verwendet werden, Prozesse zu optimieren, zum Beispiel die Entscheidung, wann und über welchen Kanal ein Kunde kontaktiert werden soll, der eine Zahlung versäumt hat. Dabei gilt: Der beste Weg ist der, der den höchsten wiedererlangten Umsatz bei geringstem Aufwand verspricht. In beiden Fällen kommt es ganz darauf an, wie die Eingaben, Aktionen und Belohnungen gestaltet werden, die das System verwendet. Es optimiert genau das, wofür es programmiert wurde, und kommt mit Unklarheiten nicht gut zurecht.
Ein gutes Beispiel dafür, wie bestärkendes Lernen von Google eingesetzt werden kann, ist die Nutzung zur Kühlung seiner Rechenzentren. Server in Rechenzentren erzeugen viel Wärme, vor allem, wenn sie dicht beieinander stehen. Wenn es zu heiß wird, kann das zu Problemen mit der IT oder sogar Schäden an der Ausrüstung führen. In diesem Fall sind die Eingabedaten verschiedene Messwerte zur Umgebung, zum Beispiel Luftdruck und Temperatur. Als Aktionen werden die Lüftergeschwindigkeit (die den Luftstrom steuert) und die Ventilöffnung (die Menge des verwendeten Wassers) in Lüftungsgeräten eingesetzt. Das System hat ein paar Regeln, die dafür sorgen, dass alles sicher läuft und die Luft im Zentrum richtig gesteuert wird. So bleibt die Temperatur auf einem bestimmten Niveau und der Energieverbrauch ist auch niedrig. Die physische Dynamik in einem Rechenzentrum ist ziemlich komplex und verändert sich laufend. Wenn das Wetter wechselt, wirkt sich das auf die Temperatur und die Luftfeuchtigkeit aus. Außerdem hat jeder Standort eine ganz eigene Architektur und Einrichtung. Algorithmen für bestärkendes Lernen können auch Nuancen erfassen, die sich mit Formeln und Regeln nur schwer beschreiben lassen.
Related Post: Neue Geschäftsstrategien an der Schnittstelle von Mensch und Technologie
KI-Lösungen für schwierige Probleme
Wie führende Unternehmen diese Art von KI nutzen, um Probleme zu lösen.
Hier bei Borealis AI haben wir uns mit dem Geschäftsbereich Capital Markets der Royal Bank of Canada zusammengetan, um ein Handelsausführungssystem namens Aiden zu entwickeln, das auf bestärkendem Lernen basiert. Aidens Job ist es, die Aktienorder eines Kunden (Kauf oder Verkauf einer bestimmten Anzahl von Aktien) innerhalb eines bestimmten Zeitfensters auszuführen und dabei Preise zu finden, die den Verlust im Vergleich zu einem bestimmten Referenzwert minimieren. Das heißt, man muss nacheinander entscheiden, welche Aktien man kauft oder verkauft. Denn wenn man zu viele auf einmal verkauft, hat das negative Auswirkungen auf den Markt. Die Herausforderung ist, die Aktionen über den Tag hinweg so zu planen, dass der Einfluss auf den Preis möglichst gering ist.
Der Aktienmarkt ist ziemlich dynamisch und die Leistung traditioneller Algorithmen – also regelbasierte Algorithmen, die Händler seit Jahren verwenden – kann schwanken, wenn die Marktbedingungen von heute von denen von gestern abweichen. Wir dachten, das ist eine gute Gelegenheit für bestärkendes Lernen – es hatte die richtige Balance zwischen Klarheit und dynamischer Komplexität. Wir wussten genau, welche Aktionen Aiden ausführen konnte und welche Belohnung wir optimieren wollten – nämlich die Differenz zwischen den von Aiden erzielten Preisen und dem volumengewichteten Durchschnittspreis des Marktes zu minimieren. Der Aktienmarkt ist schnelllebig und produziert jede Menge Daten, sodass der Algorithmus schnell viele Iterationen zum Lernen bekommt.
Wir haben den Algorithmus unzählige Male durchgespielt, bevor wir ihn live auf den Markt gebracht haben. Aiden hat sich vor allem in einigen der volatileren Marktphasen zu Beginn der Covid-19-Pandemie bewährt. Das sind ja eigentlich die schwierigsten Bedingungen für prädiktive KI. Es konnte sich an die sich verändernde Umgebung anpassen und blieb trotzdem nah an seinem Ziel.
Wie erkennt man, dass man eine Gelegenheit für bestärkendes Lernen hat? Als erstes erstellen wir eine Liste.
Mach dir erst mal eine Liste mit allen Geschäftsprozessen, die eine Abfolge von Schritten beinhalten. Dann schreibst du dazu, was du maximieren oder minimieren möchtest. Schau dir Prozesse mit vielen Aktionen und Möglichkeiten für Feedback an. Vermeide Prozesse mit wenigen Aktionen und solchen, bei denen es schwierig ist, zu beobachten, welche am besten funktioniert haben, um Feedback zu sammeln. Um das richtige Ziel zu erreichen, wirst du wahrscheinlich mehrere Versuche brauchen.
Schau dir auch mal andere Möglichkeiten an.
Wenn du ein Problem mit anderen maschinellen Lern- oder Optimierungstechniken angehen kannst, fang nicht mit bestärkendem Lernen an. Bestärkendes Lernen ist eine gute Option, wenn du nicht genug historische Daten hast, um einen Algorithmus zu trainieren. Du solltest auf jeden Fall verschiedene Optionen erkunden, auch wenn das bedeutet, dass du dabei neue Daten erstellst.
Überleg dir gut, was du dir wünschst.
Wenn du vorankommen möchtest, sollten Fachleute eng mit den technischen Teams zusammenarbeiten, um bei der Gestaltung der Eingaben, Aktionen und Belohnungen zu helfen. Bei den Eingaben sollte man sich auf das Wesentliche beschränken, damit die Entscheidung auch wirklich gut getroffen werden kann. Bei den Aktionen ist es wichtig, sich zu überlegen, wie viel Flexibilität man dem System einräumen möchte. Man sollte einfach mal anfangen und den Aktionsbereich später erweitern. Bei den Belohnungen ist es wichtig, sich die Ergebnisse genau anzuschauen. Man sollte darauf achten, nicht in die Falle zu tappen, eine Variable isoliert zu betrachten oder sich für kurzfristige Gewinne mit langfristigen Nachteilen zu entscheiden.
Man sollte sich fragen, ob es sich lohnt.
Lohnt sich die Entwicklung, wenn man die möglichen Gewinne dagegenrechnet? Viele Unternehmen müssen in die digitale Transformation investieren, um über die Systeme und dichte, datengenerierende Geschäftsprozesse zu verfügen, die sie brauchen, um verstärkende Lernsysteme wirklich nützlich zu machen. Um zu checken, ob sich die Investition lohnt, sollten die technischen Teams erst mal checken, wie viel Rechenleistung sie schon haben. Denn davon hängt ab, ob sie Versuche unterstützen und dem System helfen können, die optimale Sequenz zu finden. Vielleicht möchtet ihr ja vorher eine Simulationsumgebung erstellen, um den Algorithmus zu testen, bevor ihr ihn live schaltet. Was die Software angeht: Wenn du das System für ein Lernsystem zur Kundenbindung nutzen möchtest, sollte es A/B-Tests unterstützen können. Das ist für den Lernprozess echt wichtig, weil der Algorithmus ja verschiedene Optionen untersuchen muss, bevor er sich auf diejenige festlegen kann, die am besten funktioniert. Wenn dein Technologie-Stack Funktionen nur universell freigeben kann, musst du wahrscheinlich erst ein Upgrade machen, bevor du mit der Optimierung anfangen kannst.
Sei geduldig und hab Spaß dabei!
Und zu guter Letzt: Sei von Anfang an offen für Fehler, während das System lernt – wie bei vielen Lernalgorithmen. Es wird nicht von heute auf morgen den optimalen Weg finden, aber es wird ihn mit der Zeit finden – und dabei möglicherweise überraschende, kreative Lösungen finden, die jenseits der menschlichen Vorstellungskraft liegen.
Auch wenn bestärkendes Lernen eine ausgereifte Technologie ist, wird sie erst jetzt in Unternehmen eingesetzt. Die Technologie ist perfekt für Prozesse, bei denen viele Daten anfallen und sich ständig was ändert. Da passen Formeln und Regeln einfach nicht. Wenn du eine Chance erkennst und dich entweder auf ein internes technisches Team stützt oder mit Experten auf diesem Gebiet zusammenarbeitest, kannst du diese Technologie nutzen, um deine Konkurrenz auszustechen.
Fazit:
Bestärkendes Lernen bietet Unternehmen eine vielversprechende Technologie, um komplexe Prozesse zu automatisieren und zu optimieren. Im Gegensatz zu herkömmlichen Vorhersagemodellen lernt das System durch Ausprobieren und Feedback und kann so kreative und überraschende Lösungen entwickeln. Obwohl es bisher vor allem in spezialisierten Bereichen wie der Robotik und im Gaming eingesetzt wird, finden auch immer mehr Unternehmen wie Google und die Royal Bank of Canada innovative Anwendungsmöglichkeiten. In einer Welt, die sich ständig verändert, könnte diese Technologie der Schlüssel zu mehr Effizienz und Wettbewerbsvorteilen sein.
FAQs:
- Was ist bestärkendes Lernen?
Bestärkendes Lernen ist eine Methode des maschinellen Lernens, bei der ein Agent durch Versuch und Irrtum lernt, indem er seine Aktionen basierend auf den erzielten Ergebnissen anpasst. - Wie unterscheidet sich bestärkendes Lernen von überwachten Lernverfahren?
Beim bestärkenden Lernen gibt es keine richtige Antwort, von der der Algorithmus lernen kann, sondern nur Feedback über den Erfolg einer Aktion. Im Gegensatz dazu basiert das überwachte Lernen auf historischen Daten und richtigen Lösungen. - Welche Unternehmen nutzen bereits bestärkendes Lernen?
Unternehmen wie Google, Netflix und die Royal Bank of Canada setzen bestärkendes Lernen ein, um komplexe Probleme zu lösen, von der Kühlung von Rechenzentren bis hin zur Optimierung von Aktienverkäufen. - In welchen Bereichen wird bestärkendes Lernen häufig angewendet?
Bestärkendes Lernen wird vor allem in der Wissenschaft, Robotik und in Videospielen genutzt. Es ist besonders nützlich in dynamischen Umgebungen mit vielen möglichen Handlungsoptionen und regelmäßigem Feedback. - Warum wird bestärkendes Lernen in der Geschäftswelt noch nicht weit verbreitet eingesetzt?
Viele Unternehmen setzen auf traditionelle maschinelle Lernverfahren, die einfacher zu implementieren sind. Bestärkendes Lernen erfordert jedoch eine Umgebung, in der kontinuierlich Feedback und Daten verfügbar sind, was oft noch eine Herausforderung darstellt.
Quellenangaben:
- Nature – Deep reinforcement learning
- ScienceDirect – Reinforcement Learning: A Survey
- O’Reilly – Reinforcement Learning
- Microsoft Research – Deep Reinforcement Learning from Human Preferences
- IBM – What is Reinforcement Learning?
- Towards Data Science – A Beginner’s Guide to Reinforcement Learning
- Analytics Vidhya – Types of Reinforcement Learning Algorithms