Google Duplex: Hallo, äh, hier spricht eine Künstliche Intelligenz

Martin Schindler10. Mai 2018

Google stellte auf seiner Entwicklerkonferenz I/O einen Sprachroboter vor, der am Telefon von einem menschlichen Gesprächspartner kaum zu unterscheiden ist. Etwaige Bedenken, dass die Technik missbraucht werden könnte? Fehlanzeige. Nach einem Shitstorm verspricht Google Besserung.

Täuschend echt bucht der neue Chatbot von Google einen Tisch in einem Restaurant – völlig autonom. Mit kleinen Pausen und Einwürfen wie ‚hmm‘ und ‚äh‘ schafft es die KI-Lösung Google Duplex, dem Gegenüber darüber hinwegzutäuschen, dass dieses Gespräch mit einem Roboter geführt wird. Er unterhält sich scheinbar mühelos und ist auf Nachfragen um keine Antwort verlegen.

Allerdings ließ die Reaktion aus der Community nicht lange auf sich warten. Eine Welle der Entrüstung bricht über Google herein. Kritiker werfen Google unter anderem vor, damit den Missbrauch der Technologie, etwa für so genannten Voice-Spam, einfach in Kauf zu nehmen.

Yaniv Leviathan, Google Duplex Lead und Matan Kalman, Engineering Manager haben sich von Duplex einen Tisch buchen lassen. (Bild: Google) — Yaniv Leviathan, Google Duplex Lead und Matan Kalman, Engineering Manager
haben sich von Duplex in einem Restaurant einen Tisch buchen lassen. (Bild: Google)

Jetzt will Google zu Beginn einer Unterhaltung den Gesprächspartner darüber informieren, dass hier ein Algorithmus und kein Mensch in der Leitung ist, wie ein Google-Sprecher gegenüber The Verge inzwischen bestätigt hat. Was man auf der Konferenz vorgestellt habe, sei eine Entwicklung in einem sehr frühen Stadium gewesen. Mithilfe des Feedbacks der Nutzer wolle man ab dem Sommer Duplex in Google Assistant integrieren.

Lesetipp

Schlüsselelement Kontext

Künftig werde sich die Software dem Gegenüber also entsprechend zu erkennen geben. Tatsächlich hatte Google in einem Blogbeitrag, in dem die neue Software angekündigt wird, erklärt, dass Google hier um Transparenz bemüht sei. Im selben Blog hatten Yaniv Leviathan, Principal Engineer, und Yossi Matias, Vice President Engineering bei Google, auch Tonspuren des Sprachalgorithmus hinterlegt, die belegen, wie überzeugend die Lösung ist.

Sie erklären hier auch, wie schwierig es für eine Maschine ist, Alltagssprache zu verstehen. Daher könne Duplex derzeit auch nur für sehr eng umrissene Aufgaben, wie etwa das Vereinbaren eines Termins bei einem Friseur oder in einem Restaurant, trainiert werden.

Spracheingabe (ASR) und Kontext verarbeitet Duplex. Am Ende sorgt eine Sprachausgabe (Text to Speach, TTS) für eine Antwort. (Bild: Google)

Denn die Technik brauche den Kontext, um sich zu orientieren. Dann aber sei es für das System tatsächlich möglich, nicht nur wie ein echter Mensch zu klingen, sondern auch Menschen zu verstehen, die undeutlich sprechen, oder sich während des Satzes korrigieren. Wendet sich das Gespräch einem anderen Thema zu, schlägt eine Selbstüberwachungsfunktion Alarm und schaltet Duplex ab. In einer Unternehmensanwendung könnte sich dann ein Mensch in das Gespräch einklinken und den Sachverhalt klären.

Für eine Unternehmensanwendung wird Duplex von einem Mentor in Echtzeit trainiert. Der stelle sicher, dass das System die Aufgaben auf dem gewünschten Niveau ausführt. Die Trainer können auch während eines Gesprächs der Software Anweisungen geben. Laut Google-Blog bringe Duplex nicht nur eine entsprechende Online-Umgebung mit, sondern erübrige auch spezielle Trainings für Anwender. Ein weiterer Vorteil der Lösung könnten auch Erinnerungsanrufe vor Terminen sein.