Die Naivität der KI verstehen

Es war der französische Philosoph Voltaire, der bekanntlich sagte, dass man einen Menschen nach den Fragen beurteilen sollte, die er stellt, und nicht nach den Antworten, die er gibt. Dies mögen sehr weise Worte sein, wenn sie sich auf den Menschen beziehen, doch für die künstliche Intelligenz ist die Situation noch einfacher: Die Maschine muss gar nicht wissen, was die Frage ist, um eine respektable Antwort zu geben.

Die KI verwendet das Konzept des Clustering: Indem sie eine grosse Datenmenge einem geeigneten Algorithmus präsentiert, findet sie Cluster mit ähnlichen Datenpunkten. Diese Cluster können von verschiedenen Merkmalen abhängen; nicht nur von  wenigen Aspektenwie dem Gehalt oder der Neigung, ein bestimmtes Produkt zu kaufen, sondern in manchen Fällen von vielen hundert verschiedenen Merkmalen. Die KI stellt somit die „mathematischen Muskeln“ zur Verfügung, die über die Fähigkeit eines menschlichen Gehirns hinausgehen, die Cluster zu finden.

Dennoch basieren diese Cluster  nicht auf vorher festgelegten Ideen oder Fragen (oder, genauer gesagt, müssen sie das nicht) – dies wird in der KI-Welt gewöhnlich als “unbeaufsichtigtes Lernen” bezeichnet. Der Algorithmus behandelt die Informationen als eine einfache Menge von Zahlen, die es entsprechend zu ordnen gilt, ohne Rücksicht darauf zu nehmen, ob es sich dabei um Daten über Autos, Häuser, Tiere oder Menschen handelt. Doch obwohl gerade diese Naivität der Daten eine der Stärken der künstlichen Intelligenz ist, könnte sie auch als Fehler angesehen werden.

Bei großen Daten-Clustering-Lösungen kann der Algorithmus Muster in Daten finden, die zwar korrelieren, aber nicht kausal sind. In einem ziemlich skurrilen Beispiel eines KI-Systems, das eine Korrelation zwischen Augenfarbe und der Neigung, einen Joghurt zu kaufen, findet, müsste ein Mensch herausfinden, dass es sehr unwahrscheinlich ist, dass dies eine aussagekräftige Korrelation ist. Die Maschine wäre jedoch für diesen Erkenntnisgrad naiv.

Die KI kann auch Muster finden, die nicht mit gesellschaftlichen Normen oder Erwartungen übereinstimmen – diese beziehen sich in der Regel auf Themen wie Rasse und Geschlecht. Über die Herausforderungen unbeabsichtigter Voreingenommenheit gibt es bereits viele Veröffentlichungen (auch in unseren eigenen Blogs). Aber in diesem Fall kann eine ungünstige Korrelation von rein faktischen Daten durch den Algorithmus naiv aufgedeckt werden. Die Herausforderung für diejenigen, die für diesen Algorithmus verantwortlich sind, besteht darin zu entscheiden,  ob es sich dabei um einen Zufall handel oder ob es tatsächlich eine Kausalität gibt, der man sich stellen muss. Wie damit umgegangen wird, muss von Fall zu Fall und mit viel Fingerspitzengefühl beurteilt werden.

Es gibt auch das berüchtigte Beispiel des Microsoft-Tweetbots (automatisierter Twitter-Account) von vor einigen Jahren, der sich in einen pornographieliebenden Rassisten verwandelte. Ursprünglich war beabsichtigt, dass Tay, wie sie den Bot nannten, sich wie ein “sorgloser Teenager” verhalten sollte, der durch Interaktionen mit anderen Twitter-Benutzern lernt, wie er sich zu verhalten hat. Doch es wurde schnell unangenehm, als die menschlichen Benutzer ihm rassistische und pornografische Zeilen fütterten, von denen er lernte und die er anschließend gebührend an andere Benutzer weitergab. Tay, als naive KI, nahm einfach an, dass dies “normales” Verhalten sei. Nach nur wenigen Stunden war Microsoft gezwungen, den peinlichen Tweetbot offline zu schalten.

Die Naivität der KI könnte mit dem Lernen bei Hunden vergleichen werden. Alle Hunde lieben es, spazieren zu gehen – und die Besitzer wissen dies im Allgemeinen, da sich der Hund bei den ersten Anzeichen für einen bevorstehenden Spaziergang sichtlich freut. Zu diesen Anzeichen  gehören Dinge wie das Verschließen der Hintertür und das Anziehen von Wanderschuhen. Nun hat der Hund meist keine Ahnung, was die Begriffe “Hintertür abschließen” oder “Wanderschuhe anziehen” bedeuten, aber er weiß, dass, wenn diese beiden Ereignisse kurz hintereinander stattfinden, die Wahrscheinlichkeit hoch ist, dass er spazieren geht. Mit anderen Worten, der Hund ist völlig naiv gegenüber dem, was die vorhergehenden Ereignisse bedeuten – es sind lediglich Daten, die ihm Hinweise geben – doch sie können zu einem wahrscheinlichen Ergebnis korreliert werden.

Diese Analogie von Hund und KI ist recht nützlich und kann noch weiter ausgeweitet werden: Einige Hunde können ziemlich faul sein, wenn sie also sehen, dass der Besitzer die Hintertür abschließt, und dann aber Laufschuhe anzieht. Diese Hunde könnten sie sich verstecken, um sicherzugehen, dass sie nicht mitlaufen müssen. In diesem Szenario verwendet der Hund  eine erhöhte Granularität, um das Ergebnis zu berechnen – es geht nicht nur um “Schuhe”, sondern um die “Art der Schuhe”. Natürlich weiß der Hund nicht, dass Laufschuhe speziell für das Laufen entwickelt wurden, sondern nur, dass sie sich genügend von anderen Schuhen unterscheiden. Es könnte an deranderen Farbe/Schattierung liegen, an einem andereren Geruch,  einem anderen Aufbewahrungsort usw. Dies verdeutlicht die Undurchsichtigkeitsproblematik der KI: Niemand hätte eine wirkliche Ahnung (es sei denn, man führt einige ziemlich gründlich kontrollierte Tests durch), welcher Aspekt der Schuhe das Ergebnis von “Ausgezeichnet, ich gehe spazieren” auf “Besser verstecken, er geht laufen” umschaltet, aber es hat eindeutig eine binäre Wirkung.

Die Analogie zwischen Hund und KI hat übrigens auch ihre Grenzen: Hunde haben viele andere grundlegende kognitive Fähigkeiten, wie z.B. das Wissen, wann es Zeit für  das Abendessen ist, ohne die Uhrzeit sagen zu können. Da die KI jedoch sehr spezialisiert auf ihre Fähigkeiten ist, wäre eine KI, die Spaziergänge vorhersagt, nicht in der Lage, die Essenszeit vorherzusagen (dies ist die Debatte zwischen “enger KI” und “allgemeiner KI”).

Die Naivität von KI-Systemen kann also für ihre Benutzer ein echtes Kopfzerbrechen sein. Es genügt zu sagen, dass die Ergebnisse aus dem Clustering sorgfältig und klug verwendet werden müssen, wenn sie ihren vollen Wert entfalten sollen. Datenwissenschaftler und KI-Entwickler müssen sich daher der Konsequenzen ihrer Schöpfungen bewusst sein und mit gesundem Menschenverstand die Sinnhaftigkeit des Kontexts sicherstellen.

Tags: #DigitalProcesses, #FutureOfWork, Ai, Industrie 4.0, Inteligencia Artificial, Künstliche Intelligenz