Duplex: Die Mutter aller KI Demos

Auf Googles Entwicklerkonferenz Mitte Mai wurden viele Ankündigungen gemacht, aber es war eine Demo, die alle zum Reden brachte. Ein neues KI-System, das unter dem Namen Duplex bekannt ist, ruft Restaurants und Friseure an, um Buchungen im Namen seiner menschlichen Meister vorzunehmen. Die scheinbare “Magie” in der Demo ist die Art und Weise, wie Duplex Intonation und Sprachstörungen verwendet (wie z.B. “um” und “ah”) und in der Lage ist, mit einem sehr natürlichen Gesprächsstil umzugehen (die Person, die die Buchung entgegennimmt, weiß nicht, dass sie mit einer KI spricht). Wie Google in seinem Blog-Artikel über Duplex sagt: “Wenn Menschen miteinander reden, verwenden sie komplexere Sätze als wenn sie mit Computern sprechen. Sie korrigieren sich oft in der Mitte des Satzes, sind wortreicher als nötig oder lassen Wörter weg und verlassen sich stattdessen auf den Kontext; sie drücken auch eine breite Palette von Absichten aus, manchmal im gleichen Satz”. All das macht es für eine KI sehr schwierig, damit umzugehen, aber, basierend auf der Demo, scheint Google es geknackt zu haben.

Es lohnt sich, die Technologie etwas genauer zu untersuchen, denn als gute, zynische Bürger sollten wir diese Art von Demonstrationen nicht für bare Münze nehmen. Das System nutzt, wie viele andere KI-Lösungen, verschiedene KI-Fähigkeiten, um seine Ergebnisse zu erzielen: Die Eingaben (die Worte, die z.B. von der Person im Restaurant gesprochen werden, die die Buchung vornimmt) werden zunächst von einer automatischen Spracherkennungsmaschine verarbeitet, um diese Töne in Worte zu verwandeln. Die Wörter werden mit anderen Informationen wie z.B. dem Kontext kombiniert und in ein Machine Learning Modell, ein so genanntes Recurrent Neural Network (RNN), eingespeist. Dieses RNN wurde auf eine große Anzahl von anonymisierten Telefongesprächen um jede spezifische Aufgabe herum trainiert, so dass es in der Lage ist, die Absicht der Wörter zu “verstehen” und eine angemessene Antwort zu generieren. Eine Text To Speech Maschine liest dann die Antwort vor. Es ist wichtig zu beachten, dass das Duplex-System sehr spezifisch für seine geschulte Aufgabe ist – es wird eine RNN für Restaurantbuchungen und eine andere für Friseurtermine geben. Ein Teil des Trainings wird über die verschiedenen Anwendungsfälle verteilt, aber ein großer Teil davon muss kontextspezifisch sein, damit es effektiv funktioniert.

Also, was sind die Vorteile von all dem? Der Hauptanwendungsfall richtet sich an Dienstleistungsunternehmen, die nicht über Online-Buchungsmöglichkeiten verfügen (dies sind in der Regel kleinere Betriebe). Es ermöglicht Kunden, Buchungen “asynchron” vorzunehmen, d.h. der Kunde kann die Buchung von seinem Heimassistenten anfordern, wenn das Geschäft geschlossen ist, und die Buchung wird dann im Hintergrund durchgeführt, sobald das Geschäft geöffnet ist. Es ist auch nützlich für Buchungen in einer Fremdsprache oder für Hörgeschädigte. Wir denken auch, dass es für sogenannte “Data Scraping” genutzt (oder missbraucht) werden könnte – das System könnte Hunderte oder Tausende von Unternehmen aufrufen, um z.B. ihre Öffnungszeiten zu ermitteln, die dann in einer marktfähigen Datenbank zusammengefasst werden könnten.

Es sollte für jeden, der dies liest, offensichtlich sein, dass die oben genannten Vorteile ziemlich begrenzt sind, besonders im Vergleich zu der Menge an Hype, die durch die Demo erzeugt wurde. Die meisten Restaurants, zumindest in Europa, verfügen über eine Art Online-Buchungsmöglichkeit, auch wenn diese über einen Drittanbieter erfolgt. Der Anruf beim Friseur ist kaum eine anstrengende Aufgabe, vor allem dann nicht, wenn Sie Ihren Heimassistenten damit beauftragen müssen. Und wenn der Salon keinen freien Platz hat? Das Hin und Her zwischen Ihnen, dem Heimassistenten und dem Salon ist plötzlich viel komplizierter geworden.

Die Einschränkung um die Spezifität des Anwendungsfalles schränkt auch den Nutzen ein. Google wird für jeden Fall ein neues Modell trainieren und erstellen müssen, aber wie viele aktuelle KI-Systeme werden die Nutzer diese Einschränkungen schnell finden und frustriert sein. Wie Google freiwillig zugibt, “kann es keine allgemeinen Gespräche führen”, obwohl dies vielleicht die eigentliche Erwartung vieler Nutzer ist, besonders wenn der Hype im aktuellen Tempo weitergeht.

Es gibt auch ein tieferes Problem im Zusammenhang mit der Transparenz. Viele Menschen würden sich unwohl fühlen, wenn sie merkten, dass sie mit einer Maschine und nicht mit einem Menschen gesprochen hatten. Andere Leute haben darauf reagiert, indem sie es “absichtliche Täuschung” nannten. Google hat darauf bereits reagiert und versprochen, die Leute, die angerufen werden, zu warnen, dass sie mit einer Maschine sprechen. Aber dann könnte dies bedeuten, dass die Leute ihre Sprache abstumpfen, was den eigentlichen Zweck des Ganzen eher zunichte macht.

Wir sollten uns auch an den Hype erinnern, der mit der Einführung von Google’s Pixel Buds kam, die im Allgemeinen nicht den Erwartungen entsprachen, und natürlich an Google Glasses, die es nicht einmal in die Massenproduktion geschafft haben. Aber diese Art von Demos, die die Grenzen dessen, wozu KI in der Lage ist, überschreiten, spielen eine wichtige Rolle bei der allgemeinen Entwicklung und Weiterentwicklung der Technologie. Und wenn es die Debatte um Transparenz anregt, dann ist das jetzt viel besser, als wenn die Maschinen wirklich unser Leben für uns bestimmen.

Tags: Künstliche Intelligenz