Einleitung
Die Geschichte von Google Flu Trends zeigt eindrucksvoll, dass auch große Datenmengen und leistungsstarke Algorithmen an ihre Grenzen stoßen können. Die Vorstellung, dass Daten allein zur präzisen Vorhersage von Ereignissen ausreichen, hat sich als trügerisch erwiesen. Heute setzen Unternehmen zunehmend auf AutoML und maschinelles Lernen, um bessere Lösungen zu entwickeln. Doch trotz aller Automatisierung bleibt der Mensch als Experte unverzichtbar. Unser Ansatz des „Augmented Machine Learning“ (augML) hebt hervor, wie wichtig Kontext, ergänzende Daten und menschliches Urteilsvermögen sind, um die besten Ergebnisse zu erzielen.
Related Post: Die Rolle der Generativen KI in der Produktivitätssteigerung und demografischen Herausforderungen
Als Google Flu Trends 2009 eingeführt wurde, meinte Googles Chefökonom Hal Varian, dass Suchtrends genutzt werden könnten, um „die Gegenwart vorherzusagen“. Damals war die Idee, aus den ganzen Suchabfragen nützliche Muster und Erkenntnisse zu gewinnen, gar nicht so verkehrt. Denn schließlich startet die digitale Reise vieler Nutzer mit einer Suchanfrage. Acht von zehn Personen suchen dabei nach gesundheitsbezogenen Informationen. Was könnte da schon schiefgehen? Die Antwort ist in der Geschäftswelt und in der Datenwissenschaft berüchtigt. Google Flu wurde 2015 eingestellt, weil die Prognosen des Tools die Grippewellen im Vergleich zu den Daten der Centers for Disease Control um fast 100 % überschätzt hatten. Kritiker haben das Projekt schnell als Paradebeispiel für die Hybris von Big Data bezeichnet. Damit meinen sie, dass man durch induktives Denken, das durch große Datenmengen angetrieben wird, die traditionelle, deduktive Analyse, die von menschlichen Hypothesen geleitet wird, nicht ersetzen kann.
In letzter Zeit setzen Organisationen vermehrt auf die Kombination von Big Data und komplexem, automatisiertem maschinellem Lernen (autoML), um die Vorhersagekraft zu verbessern. AutoML ist eine Methode, bei der maschinelles Lernen eingesetzt wird, um besseres maschinelles Lernen zu generieren. Damit soll maschinelles Lernen für alle zugänglich gemacht werden. Auch Unternehmen, die nicht so viel Erfahrung mit Datenwissenschaft haben, können damit eigene Lösungen entwickeln, um komplexe Geschäftsprobleme zu lösen. Bei einem Kaggle-Vorhersagewettbewerb, der erst vor wenigen Monaten stattfand, hat eine AutoML-Engine, die gegen einige der besten Datenwissenschaftler der Welt angetreten ist, den zweiten Platz gemacht. Dabei lag sie die meiste Zeit in Führung. Diese ganzen Fortschritte haben aber auch zu Bedenken geführt, ob die KI sich zu viel auf ihre eigene Leistungsfähigkeit einbildet. Durch die Kommerzialisierung des maschinellen Lernens zur Prozessverbesserung stellt sich bei AutoML erneut die Frage, wie das Zusammenspiel zwischen Daten, Modellen und menschlichen Experten am besten aussehen sollte. Was heißt das jetzt für die Führungskräfte in einer Welt, in der KI eine große Rolle spielt?
Related Post: Wie Unternehmen durch KI kollektive Intelligenz nutzen und fördern können
In unserem staatlich finanzierten Projekt (mit Rick Netemeyer und Donald Adjeroh) checken wir, wie gut sich unerwünschte Ereignisse aus großen Mengen digitaler, benutzergenerierter Inhalte erkennen lassen. Für Unternehmen ist es in vielen Bereichen total wichtig, unerwünschte Ereignisse im Zusammenhang mit ihren Produkten oder Dienstleistungen zu überwachen. Zum Beispiel, um unbekannte Nebenwirkungen von Medikamenten, Gefahren durch Kinderspielzeug oder Probleme, die zu Rückrufaktionen für Autos führen, zu erkennen. Das Projekt hat in etwa dasselbe Ziel wie Google Flu: Maschinelles Lernen soll dafür sorgen, dass wir potenzielle unerwünschte Ereignisse schneller und genauer erkennen können. Wenn zum Beispiel ein Medikament schwerwiegende, unvorhergesehene Nebenwirkungen hat oder ein Auto wegen eines potenziellen Defekts nicht richtig funktioniert, wollen verschiedene Interessengruppen, zum Beispiel Produkthersteller, Aufsichtsbehörden und Verbraucherschutzgruppen, möglichst schnell Bescheid wissen. Unsere Deep-Learning-Modelle checken Millionen von Websuchen, um festzustellen, ob bestimmte Produkt- und Ereignis-Paarungen im Vergleich zum Rauschen übermäßig oft vorkommen. Die Modelle erstellen eine Liste mit potenziellen unerwünschten Ereignissen, die wir uns dann genauer ansehen müssen. Als Beispiel kann man sich die Kombination von „Prius“ und „klebriges Pedal“ vorstellen, die als Signal gekennzeichnet wird.
Weil die Anwendung von fortgeschrittenen maschinellen Lernmethoden auf große Datenmengen von Suchabfragen gewisse Risiken birgt, haben wir einen neuen Ansatz entwickelt, den wir „Augmented Machine Learning“ (augML) nennen. Mit der Augmentierung statt Automatisierung wird das AutoML-Konzept erweitert. Dadurch werden die Bedeutung von Experten, Kontext und ergänzenden Daten betont. Wenn ihr eure maschinellen Lernfähigkeiten auf diese Weise verbessern wollt, dann denkt daran:
Related Post: Computational Leadership Science: Führung im digitalen Zeitalter neu gedacht
1. Der Modellentwicklungsprozess sollte halbautomatisiert werden.
Durch die ganzen Fortschritte im Bereich des maschinellen Lernens ist die prädiktive Modellierung jetzt viel komplexer und auch die Möglichkeiten, das Ganze zu automatisieren, sind jetzt viel größer. Merkmale konstruieren, Darstellungen in Modellarchitekturen optimieren, Parameter abstimmen – das sind alles Aufgaben, die sich oft automatisieren lassen. Jede Aufgabe ist genau definiert und lässt sich über KPIs steuern. Wenn die Aufgaben immer komplexer werden, kann die Automatisierung dafür sorgen, dass alles genauer wird. Denn so können mehr Alternativen und Kombinationen umfassend untersucht werden. Aber zumindest in absehbarer Zukunft kann die Automatisierung kein Expertenwissen ersetzen. Die Automatisierung sollte also eher als zusätzliche Hilfe für menschliche Experten gesehen werden, damit diese sich auf die Tätigkeiten konzentrieren können, bei denen sie ihr kombiniertes Fach- und technisches Wissen am besten einsetzen können. Kurz gesagt: Wir denken, dass die Automatisierung am besten geeignet ist, um die Experten zu unterstützen, statt die Wissenslücke zu schließen.
Related Post: Bestärkendes Lernen: Wie Künstliche Intelligenz Unternehmen neue Wege zur Optimierung eröffnet
Die Nachuntersuchung von Google Grippe durch die Forschungsgemeinschaft hat gezeigt, wie wichtig es ist, bei der Analyse von Suchdaten die gesamte User Journey zu berücksichtigen. Viele Suchanfragen mit „Grippe“ sind für die Vorhersage von Ausbrüchen eigentlich nicht wirklich relevant. Vielleicht fragen sich die Leute, wie schlimm die Grippe in diesem Jahr wohl werden könnte. Oder sie lassen sich von der ganzen Berichterstattung dazu verleiten, nach Infos zu Grippeimpfstoffen zu suchen. Auf Basis dieser Erkenntnisse haben wir in unserem Projekt zur Erkennung unerwünschter Ereignisse unsere Modelle so konzipiert, dass sie die Absicht der Abfrage berücksichtigen. Egal ob Produktentdeckung, Recherche vor dem Kauf, Anfragen nach dem Kauf oder was auch immer. Jede Art von Suche liefert andere Signale in Bezug auf unerwünschte Ereignisse. Die beste Struktur für unsere Deep-Learning-Architektur haben wir halbautomatisiert ermittelt. Dabei haben uns Experten unterstützt, die sich mit den zugrunde liegenden Verhaltensweisen auskennen. Außerdem haben wir maschinelles Lernen eingesetzt.
2. Integriere maschinelles Lernen mit Repräsentations-Engineering.
Maschinelles Lernen ist im Prinzip nichts anderes als ein Algorithmus, der aus Daten Muster lernt. Das können auch fortgeschrittene Methoden wie Deep Learning, die mit komplexen, unstrukturierten Daten umgehen können. Dabei wird oft übersehen, wie wichtig die Art und Weise ist, wie die Daten dem Algorithmus dargestellt werden. Das ist aber ein entscheidender Faktor, wenn man leistungsstarke Modelle für maschinelles Lernen erstellen will. Dieser Darstellungsreichtum kommt daher, dass wir sehr konkrete, auf das jeweilige Problem zugeschnittene Konstrukte einbeziehen. Das wird durch Repräsentationstechnik erreicht, bei der strukturierte und unstrukturierte Daten gezielt zu einer aussagekräftigen, benutzerdefinierten Datenarchitektur zugeordnet werden.
Wir haben eine eigene Benutzerdarstellung entwickelt, damit wir in unseren Modellen auch individuelle Eigenschaften der Benutzer berücksichtigen können. Wenn zum Beispiel einige Nutzer empfindlich sind und sich oft über bestimmte Medikamente und Reaktionen informieren, könnten sie bei der Suche nach unerwünschten Arzneimittelereignissen weniger zuverlässige Signale liefern. Wenn die Darstellungen nicht sorgfältig konstruiert sind und keinen Kontext zu den einzelnen Suchanfragen hinzufügen, können Algorithmen des maschinellen Lernens das möglicherweise nicht erkennen. Die Darstellungstechnik, die wir vorher besprochen haben, nutzen wir auch, um den Kontext der Suchabsichten der Benutzer einzubeziehen. Die Einbettung dieser benutzerdefinierten Darstellungen hat dazu geführt, dass unsere Modelle besser auf den Suchkontext kalibriert werden konnten. Dadurch hat sich die Anzahl der erkannten tatsächlichen unerwünschten Ereignisse nahezu verdoppelt und die Falsch-Positiv-Rate um 30 % reduziert. Das heißt, es gab immer noch die Möglichkeit, den Prozess der Darstellung der Daten zu leiten, aus denen das Modell lernen sollte, selbst bei komplexen Deep-Learning-Modellen wie den von uns verwendeten.
3. Wir haben darauf geachtet, dass die Daten ausgewogen sind, also sowohl tiefgründige als auch breite Informationen enthalten.
Fortgeschrittene Methoden des maschinellen Lernens können Muster in jedem Winkel eines Datensatzes erkennen. AutoML-Methoden haben diesen Vorteil durch den Einsatz von Transferlernen noch weiter verbessert. Dabei werden Muster aus einem Zieldatensatz mithilfe von Erkenntnissen aus ähnlichen externen Daten verfeinert. Wenn ein Unternehmen zum Beispiel mithilfe von NLP die Stimmung seiner Kunden aus den Transkripten seines Callcenters ableiten will, kann AutoML vergleichbare Transkriptdaten anderer Unternehmen nutzen. Wenn man aber nur auf eine einzige Datenart zurückgreift, kann das zu einer Unter- oder Überanpassung führen. In einem anderen Projekt zum maschinellen Lernen in Unternehmen haben wir gezeigt, dass Unternehmen, anstatt das Beste aus ihren Primärdaten herauszuholen, durch die Integration ergänzender Quellen eine deutlich bessere Vorhersagekraft erzielen können. Für das Callcenter-Problem könnten ergänzende Daten zum Beispiel Audioaufnahmen, Produktbewertungen und Zufriedenheitsumfragen sein. Die ganzen Fortschritte im Bereich des maschinellen Lernens haben uns irgendwie das Gefühl vermittelt, dass große Datenmengen in Kombination mit der Magie des maschinellen Lernens alles sind, was wir brauchen. Dabei spielt auch die Vielfalt und Komplementarität der Daten eine Rolle.
Bei unserem Projekt haben wir festgestellt, dass Daten für mehr Abfragen über einen längeren Zeitraum hinweg ab einem bestimmten Punkt immer weniger aussagekräftig sind. Unser großer Durchbruch kam, als wir uns mit einem Unternehmen zusammenschlossen, das große Online-Nutzerpanels mit anonymisierten Daten an der Schnittstelle von Nutzereigenschaften, Suchanfragen und Webbrowsing-Aktivitäten unterhält. Um zu verstehen, was mit den Abfragen eigentlich beabsichtigt ist, mussten wir uns anschauen, welche Suchanfragen zu tatsächlichen Besuchen bestimmter Arten von Websites führen. Wir haben erkannt, dass wir die Vielfalt der Benutzer berücksichtigen müssen, indem wir uns anschauen, wie sie suchen und surfen. Im Vergleich zu den bisherigen Erkennungsfunktionen haben diese Durchbrüche, die aus der Datentriangulation resultierten, zu Modellen geführt, die dreimal so viele echte unerwünschte Ereignisse erkennen konnten. Und das mit dreifacher Präzision.
Wir haben erkannt, dass es Grenzen für künstliche Intelligenz gibt. Dazu gehören zum Beispiel erklärbare KI, algorithmische Voreingenommenheit und Datenschutz durch Technikgestaltung. Deshalb sollten wir auch mehr darüber reden, wie wir den Nutzen des automatisierten maschinellen Lernens maximieren können. Wenn man maschinelles Lernen einfach so, ohne das nötige Fachwissen, ohne Kontext und ohne Daten, die sich ergänzen, anwendet, wird das wahrscheinlich nicht die gewünschten Ergebnisse bringen. In unserem Projekt konnten wir durch die Einbeziehung dieser Konzepte Hunderte von zuvor schwer zu identifizierenden unerwünschten Produktereignissen im Schnitt drei bis vier Jahre früher erkennen und haben dabei deutlich weniger Fehlalarme gehabt. Wir haben einen neuen Ansatz entwickelt, um maschinelles Lernen zu verbessern. Dadurch ist unsere KI jetzt weniger künstlich und intelligenter.
Fazit
Maschinelles Lernen ist ein mächtiges Werkzeug, aber kein Allheilmittel. Projekte wie Google Flu und unser eigenes zeigen, dass KI am effektivsten wird, wenn automatisierte Systeme und menschliches Wissen Hand in Hand arbeiten. Durch Augmented Machine Learning konnten wir unerwünschte Ereignisse deutlich früher und präziser erkennen und die Fehlalarme minimieren. Die Zukunft liegt nicht nur in der Automatisierung, sondern auch im intelligenten Zusammenspiel von Technologie und menschlicher Expertise. Nur so können die Potenziale von Big Data und maschinellem Lernen voll ausgeschöpft werden.
Häufig gestellte Fragen (FAQs)
- Was war das Hauptproblem von Google Flu Trends?
Google Flu hat Grippewellen überschätzt, weil es die Suchabsichten der Nutzer falsch interpretierte. - Was ist AutoML und wie wird es eingesetzt?
AutoML ist eine Technologie, die maschinelles Lernen automatisiert, um komplexe Modelle zu erstellen, ohne dass tiefes Fachwissen erforderlich ist. - Was bedeutet „Augmented Machine Learning“ (augML)?
AugML kombiniert automatisierte Prozesse mit menschlicher Expertise, um sicherzustellen, dass die Ergebnisse präziser und kontextbezogen sind. - Warum ist Expertenwissen trotz Automatisierung weiterhin wichtig?
Experten verstehen den Kontext besser und können sicherstellen, dass die Modelle die richtigen Annahmen treffen und Fehlinterpretationen vermieden werden. - Welche Rolle spielt Repräsentations-Engineering im maschinellen Lernen?
Die Art und Weise, wie Daten strukturiert und dargestellt werden, beeinflusst maßgeblich die Leistungsfähigkeit der Modelle. - Wie kann man die Präzision von maschinellen Lernmodellen verbessern?
Durch die Kombination verschiedener Datenquellen und den Einbezug menschlichen Fachwissens lassen sich genauere Ergebnisse erzielen. - Welche Herausforderungen gibt es bei der Anwendung von maschinellem Lernen?
Zu den größten Herausforderungen zählen algorithmische Voreingenommenheit, Datenschutzfragen und die Erklärbarkeit der Ergebnisse.
Quellenangaben:
- Nature: Predicting the flu with Google
- CDC: Flu Surveillance Reports
- ScienceDirect: Machine Learning Applications in Healthcare
- Forbes: AI Trends for 2020
- IBM: Introduction to Machine Learning
- Towards Data Science: Augmented Machine Learning Explained
- Analytics Vidhya: Future of Machine Learning in Business