DE
Ingo Siegert erforscht, wie die Kommunikation zwischen Menschen und Sprachassistenten besser werden kann. (Foto: Jana Dünnhaupt / Uni Magdeburg)
08.09.2021 aus 
Forschung + Transfer
Wie Alexa, Siri und Co uns mal besser verstehen

Egal, ob „Ok Google, sag mir wie das Wetter wird“, „Hey Siri, stelle einen Timer für 15 Minuten“, oder „Alexa, spiele Musik“ – in unserem Alltag ist es vollkommen normal, dass wir mit Sprachassistenten sprechen und diese uns, wenn es gut läuft, auch antworten. Aber die Mensch-Maschine-Beziehung ist noch immer durch Kommunikationsprobleme geprägt, noch viel zu oft fällt der frustrierende Satz: „Das habe ich leider nicht verstanden.“ Wie die Kommunikation zwischen Mensch und Sprachassistent besser gelingen kann, daran forscht Jun.-Prof. Ingo Siegert vom Institut für Informations- und Kommunikationstechnik der Uni Magdeburg. In der neuen Folge „Wissen, wann du willst“ spricht er darüber, wo die Probleme in der Kommunikation liegen, wie Sprachassistenten für Werbung genutzt wurden und ob Alexa und Co. tatsächlich die ganze Zeit mithören.

Heute zu Gast

Jun.-Prof. Dr. Ingo Siegert forscht und lehrt am Institut für Informations- und Kommunikationstechnik an der Fakultät für Elektro- und Informationstechnik. Er studierte an der Uni Magdeburg Informationstechnologie, 2015 promovierte er und ist seit 2018 Juniorprofessor. Sein Forschungsschwerpunkt liegt unter anderem auf der Mensch-Maschine-Interaktion.Im Rahmen einer seiner Vorlesungen hat er mit Studierenden den Sprachskill „Sprich mit der Uni Magdeburg!“ entwickelt, der bei der Online-Studienorientierung helfen soll.

 

 

Der Podcast zum Nachlesen


Introstimme: Wissen, wann du willst. Der Podcast zur Forschung an der Uni Magdeburg.

Lisa Baaske: Egal, ob „Ok Google, sag mir wie das Wetter wird!“, „Hey Siri, stelle einen 15-Minuten-Timer!“ oder „Alexa, spiele Musik!“ – in unserem Alltag ist es vollkommen normal geworden, dass wir mit sogenannten Sprachassistenzsystemen sprechen und diese uns, wenn es gut läuft, auch antworten. Aber oft klappt es mit der Kommunikation nicht so perfekt. „Das habe ich leider nicht verstanden.“ hören wir noch viel zu oft. Wie die Kommunikation zwischen Mensch und Maschine besser gelingen kann, daran forscht Junior-Professor Ingo Siegert vom Institut für Kommunikations- und Informationstechnik der Uni Magdeburg. Und damit herzlich willkommen an unseren heutigen Gast. Bevor es wissenschaftlich wird, natürliche erst einmal die erste und brennendste Frage: Nutzen Sie denn oft privat Sprachassistenzsysteme und für was eigentlich?

Prof. Ingo Siegert: Also, privat nutze ich sie nicht. Höchstens mal, um Nachrichten schnell zu diktieren. Aber wenn es denn da schneller wird oder bestimmte Ausdrücke kommen, dann versteht mich das System auch immer nicht.

Lisa Baaske: Da sind wir ja quasi beim Grundproblem, worüber wir heute sprechen …

Prof. Ingo Siegert: Genau.

Lisa Baaske: Was fasziniert Sie denn eigentlich so an Sprachdialogsystemen? Also warum haben Sie sich für dieses Forschungsgebiet entschieden?

Prof. Ingo Siegert: Weil da ganz viel zusammenkommt. Es ist halt Ingenieurwissenschaft, um überhaupt erst einmal die Akustik vernünftig aufnehmen zu können. Es sind die Informatikwissenschaften, um dann auch sozusagen die Künstliche Intelligenz dahinter zu trainieren, aber es spielt natürlich auch sehr viel Psychologie eine Rolle: Akzeptanz der Technik von den Nutzern. Das kommt alles zusammen, es ist ein sehr interdisziplinäres Forschungsfeld und es ist einfach spannend, an diesen ganzen Schnittstellen zu arbeiten.

Lisa Baaske: Ok, das hört sich auf jeden Fall nachvollziehbar an, würde ich sagen. Aber wie genau funktioniert das denn mit Sprachassistenten? Wie gelingt es, dass Maschinen mit uns kommunizieren?

Prof. Ingo Siegert: Das sind ganz viele kleine Teilprobleme, die gelöst werden müssen. Das, glaube ich, Wichtigste dabei ist, dass die Systeme in er Lage sind, unsere Sprache, was ja am Ende nur eine Sprachakustik ist, also Wellen, die auf Mikrophone oder aus dem Lautsprecher schlagen dann umsetzen zu können in verstehbare Einheiten. Also da muss erst einmal eine Umformung von Akustik in Laute passieren. Da wird sehr viel analog betrieben zu biologischen Vorbildern wie produziert der Mensch Sprache. Das wird versucht umzusetzen in Modelle und dann hat man am Ende eine Art Lautbrei, wo man dann als nächstes versuchen muss sinnvolle Wörter als Einheiten zuzuordnen. Und da kann schon ganz viel schiefgehen, weil wir Menschen, gerade wenn wir sprechen, sehr stark dazu neigen, Wörter zu verschleifen, Endungen zu verschlucken, nicht deutlich zu sprechen und dann muss im Nachhinein noch aus den Wörtern, die jetzt aneinandergereiht sind, versucht werden ein Sinn zu erkennen. Meistens ist es einfach. Wenn ich sage: „Alexa, spiel Musik ab!“ oder „Siri, speichere die und die Erinnerung!“ Dann gibt es nicht viel Variationen in dem, was gesagt wird und wie es gesagt werden kann. Aber schon beim Wetter wird es stark unterschiedlich. Ich kann fragen: „Siri, regnet es morgen? Wie wird das Wetter morgen in Berlin? Brauche ich morgen meinen Regenschirm? Brauche ich Sonnencreme? Kann ich in kurzer Hose laufen?“ Da gibt es so viel Variationen, die wir Menschen uns an den Stellen als Frage überlegen können, dass das System, das ja auch vom Menschen an der Stelle programmiert ist, um das zu verstehen, manchmal gar nicht hinterherkommt. Dann kommt immer dieser berühmte Satz: „Ich habe dich leider nicht verstehen können!“

Lisa Baaske: Ja, Sie haben es gerade schon angesprochen: Wir alle kennen es, oftmals versteht uns eben Alexa nich. Die Verzweiflung ist groß, der Nervfaktor auch. Also es liegt daran, das quasi Alexa uns nicht versteht, weil wir zu undeutlich sprechen, weil wir einen Dialekt haben oder woran liegt es, dass sie uns nicht versteht?

Prof. Ingo Siegert: An allen Dingen. Zum einen, dass jeder von uns ein bisschen anders spricht, was ja abgebildet werden muss. Dann, dass wir bestimmte Dialekte sprechen oder auch bestimmte Wörter benutzen, die so nicht bekannt sind. Dann, dass wir auch nicht so sprechen wie der Entwickler von Alexa, Siri & Co. es an der Stelle vorgesehen hat. Zum Beispiel, das war ganz am Anfang bei Siri so, dass man einen Termin erstellen konnte und da musste man am Ende noch bestätigen. Die Frage, die Siri da gestellt hat, war: „Soll ich den Termin eintragen?“ Ich als normaler Benutzer, Sie wahrscheinlich auch, würden sagen, ja. Aber auf der GUI, auf der grafischen Oberfläche, gab es die beiden Schaltflächen „bestätigen“ oder „abbrechen“. Und man musste an der Stelle „bestätigen“ sagen, damit der Termin bestätigt wird. Aber diese Diskrepanz zwischen „Was wird erwartet vom System“ und „Was kann ich als Nutzer sagen oder was würde ich an der Stelle sagen“ kommt manchmal auch dazu. Und natürlich dann, dass Sprachassistenten gesehen werden als, die wissen alles und man kann alle möglichen Fragen stellen aus allen möglichen Richtungen. Ich kann fragen: Wie war das Wetter? Erstelle einen Termin! Erstelle einen Timer! Aber auch, wer ist aktueller Bundeskanzler? Wie alt ist die Bundeskanzlerin? Was auch immer. Und diese Vielfalt in der Sprache abbilden zu können, ist gar nicht so einfach. Und dann wird meistens, auch wenn es verschiedene Gründe geben könnte, warum Alexa uns nicht versteht – also entweder, wir sprechen undeutlich oder die Akustik konnte nicht verstanden werden oder wir haben nicht die Äußerung getätigt, die an dieser Stelle erwartet wurde oder wir sind in unserem Dialog von einem Thema zum anderen gesprungen oder Alexa kennt die Antwort wirklich nicht, wo sie sagt: „Ich kann dir nicht helfen, ich weiß nicht weiter!“, ohne wirklich einen Grund zu benennen. Es ist halt immer schwierig, weil man im Einzelfall gar nicht weiß, woran liegt es denn jetzt. Und dann wird man frustriert.

Lisa Baaske: Ja, durchaus (lacht) In einem Projekt untersuchen Sie ja, inwieweit sich die Kommunikation der Menschen untereinander von der Interaktion mit technischen Systemen unterscheidet. Wie genau kann man denn so etwas überhaupt untersuchen?

Prof. Ingo Siegert: Indem man Experimente macht, bei denen Nutzer sowohl mit anderen Menschen sprechen als auch mit technischen Systemen sprechen. Idealerweise in der gleichen Art von Dialog. Weil, es macht ja schon einen Unterschied, ob ich jetzt mit meinem besten Freund über die Sportereignisse spreche oder mit Alexa einen Termin ausmachen will. Das unterscheidet sich ja schon. Da muss man gucken, dass man ein Setting findet, wo die Art des Dialoges ähnlich ist. Dann nimmt man die Aufnahmen entsprechend auf und guckt dann in die Aufnahmen rein, ob sich prosaisch etwas unterscheidet. Ob zum Beispiel, wenn der Nutzer jetzt mit einem anderen Menschen spricht er sozusagen größere Variabilität in der Intonation hat, ob sich zum Ende des Satzes von den Aussagen her mehr Variationen ergibt, dass manchmal die Intonation nach unten geht oder nach oben und ob sich diese Sachen auch finden, wenn der Nutzer mit einem technischen System spricht. Und natürlich kann man auch nach den Wortinhalten, wie viele Worte werden benutzt, wie viele unterschiedliche Variationen in der Formulierung von bestimmten Aussagen werden genutzt.

Lisa Baaske: Sie haben viele Leute beim Sprechen aufgenommen und dann wie sie quasi auch mit Alexa sprechen würden?

Prof. Ingo Siegert: Genau. Die Frage, die dahinter für uns stand, war: Ist es uns möglich, anhand der Prosodie, also wie jemand spricht, zu unterscheiden, ob der Nutzer mit einem technischen System spricht oder ob der Nutzer mit einem Menschen spricht? Das, auch wenn es wie eine banale Frage klingt, kann sehr große Vorteile haben, denn im Moment ist es ja so, ich muss sagen „Alexa, hey Google, hey Siri …“, damit dieses Thema angeht. Das ist zum einen irgendwie relativ unnatürlich, weil ich es teilweise auch jedesmal sagen muss, wenn ich ein längeres Gespräch führe, was sie einfach nicht können. Und zum anderen gibt’s dabei immer noch viele Fehldetectionen. Also der Klassiker bei Alexa ist, wenn ich jemanden habe, der Alexa heißt. Aber auch andere phonetisch ähnlich klingende Wörter wie Alexa, also ich gehe zum Alex – was auch immer –, aktivieren diese Geräte in Situationen, in denen sie nicht aktiviert werden sollen. Und wenn die Geräte aber zusätzlich zu dem Sprachinhalt, also dem Laut, dem Wort auch noch erkennen könnten, wie es gesagt wurde und sich das unterscheidet, ob Nutzer mit einem System oder mit einem Menschen sprechen, dann können diese zusätzliche Informationen dazu dienen, diese Fehldetektionen zu verringern, indem halt dann, wenn Nutzer mit einem System eher nicht so stark modulierend sprechen, also die Intonation sehr eintönig ist, auch meistens stärker akzentuiert ist, dann die Geräte das erkennen könnten und auch nur dann angehen, wenn sie wirklich gemeint sind.

Lisa Baaske: Mir ist gerade der Gedanke gekommen: Wenn jetzt Leute den Podcast hören und wir ständig Alexa sagen und die natürlich eine Alexa zuhause haben, dann könnte es natürlich auch passieren, dass die jetzt wahrscheinlich ganz oft anspringt. Entschuldigung dafür. (lacht)

Prof. Ingo Siegert: Genau, das haben sich andere auch zunutze gemacht. Da gab’s mal eine berühmte Superbowl-Werbung, wo glaub ich Burgerking 30 Sekunden Superbowl-Werbung gekauft hat, ich glaube nur 15 Sekunden statt 30 Sekunden, und in der Zeit einfach nur in der Werbung die Frage von dem Sprecher gestellt wurde: Alexa erzähl mir was über den Whopper.

Lisa Baaske: (lacht) Oh, clever.

Prof. Ingo Siegert: Und dann diesen Wikipedia-Eintrag, der von Alexa vorgelesen wird; entsprechend manipuliert. Und dann hatten sie nochmal so 30 Sekunden Extra-Werbung für alle Kunden, die das hatten. Daraufhin musste Amazon natürlich entsprechend die Algorithmen anpassen und die haben jetzt so eine Art Werbeerkennung …

Lisa Baaske: Ah!

Prof. Ingo Siegert: … die dadurch funktioniert, dass sie vorher alle Werbespots screen, gucken, wann das Alexa-Keyword fällt und was danach gesagt wird. Und das, was in diesem Werbespot nach dem Alexa-Keyword kommt erkennen und markieren als Werbung und darauf nicht reagieren.

Lisa Baaske: Ah, okay (lacht), sehr interessant auf jeden Fall. Aber was ist denn so generell das Ziel Ihres Projektes? Also am Ende sollen uns Alexa und Co. total verstehen und mit uns kommunizieren, als wären sie auch menschlich?

Prof. Ingo Siegert: Nein. Also ich sehe die technischen Systeme immer als technische Assistenten in bestimmten Situationen, wo wir Nutzer Unterstützung brauchen könnten, um damit den Alltag besser zu machen. Aber sie sollen nicht andere Menschen ersetzen, sondern in bestimmten Situationen als eine Art Assistent dienen können. Dafür wäre es natürlich auch schön, wenn dieses Thema ein bisschen mehr der menschlichen Kommunikation verstehen würden. Im Moment ist es ja so, wenn wir Menschen sprechen, benutzen wir ja nicht nur den Sprachinhalt, um mit dem Anderen zu kommunizieren, sondern zusätzlich auch die Sprachprosodie. Es ist also immer wichtig, was gesagt wurde und wie es gesagt wurde. Also ob ich etwas sarkastisch meine, ob ich es als Befehlston meine, ob ich es als Bitte meine, kann ich über den Inhalt und auch über die Prosodie übertragen. Sprachassistenten verstehen nur den Inhalt. Die Prosodie ist vollkommen egal. In den meisten Fällen ist das ok. Wenn ich nur einen Fakt wissen will, reicht es, das als Kommandoäußerung einfach nur zu stellen. Aber in vielen Fällen wäre es vielleicht gut, wenn die Assistenten ein bisschen mehr von dieser Prosodie verstehen würden.

Ein ganz profanes Beispiel ist, ich setze mich morgens ins Auto, programmiere mein Navi per Sprache, weil ich zu dem wichtigen Termin muss. Und ich bin schon leicht gehetzt, weil ich sowieso schon zu spät bin. Wenn dann der Assistent merkt: Oh, derjenige ist gehetzt. Dann kann er vielleicht die von meiner Standardeinstellung angenehmste Route gleich mal annehmen: Ok, der ist gehetzt, einfach mal vorschlagen, oh ich merke, du bist ein bisschen gehetzt heute, wollen wir mal die schnellste Route nehmen, dann kommen wir ja 10 Minuten eher an. Das wäre so eine Unterstützung, die, wenn ich jetzt einen menschlichen Beifahrer hätte und der mich noch per Straßenkarte irgendwohin navigieren würde, dem daswahrscheinlich auch auffallen würde und der entsprechend reagieren würde.

Andersherum natürlich, wenn ich in Urlaub fahre und ich habe gerade Zeit und ich bin schon sechs Stunden gefahren. Es gibt diese Müdigkeitserkennung im Auto oder wenn die Augen langsam zufallen eine Kaffeetasse angezeigt wird. Aber es wäre doch viel schöner, wenn an der Stelle auch vielleicht eine sprachliche Interaktion passiert, so à la: „Oh, Du bist jetzt schon sechs Stunden gefahren, in einer halben Stunde ist ein schöner Rastplatz. Der hat super Bewertungen. Wollen wir da einfach mal anhalten?“ Das sind so Kleinigkeiten, wo technische Systeme im Alltag ein bisschen mehr helfen können, ohne gleich vermenschlicht zu werden, immer noch als eine technische System mit einer bestimmten Aufgabe gesehen werden, aber die Kommunikation ein bisschen erleichtern könnten. Und das ist glaube ich so ein Ziel, das ich verfolge.

Lisa Baaske: Verstehe ich. Klingt doch auf jeden Fall cool. Wenn das irgendwann mal möglich wäre, wäre das richtig toll. Sie forschen ja jetzt schon eine ganze Weile daran. Gab’s denn so mal einen Punkt, wo Sie sich gesagt haben: Hier bin ich jetzt gerade in eine riesige Sackgasse geraten? Das war jetzt eine riesige Herausforderung! Irgendetwas in der Art.

Prof. Ingo Siegert: Ja, also das große Problem, das wir haben beim Erkennen davon, wie Nutzer sprechen, ist, dass wir Beispiele brauchen von Nutzern, die in bestimmten Situationen auf eine bestimmte Art und Weise sprechen. Und da beist sich so ein bisschen die Katze in den Schwanz, weil, wenn ich ein technisches System habe, was keine Emotionen erkennen kann, wie kriege ich Nutzer dazu, dass sie mit dem technischen System so sprechen, als ob es Emotionen erkennen könnte? Das war sozusagen eine große Frage. Warum sollen Menschen mit einem System emotional sprechen, damit ich mal analysieren kann, wie sie emotional damit sprechen und ohne dass sie es wissen, dass das System das kann.

Es gibt ganz viele Daten, die auch von anderen Forschern aufgenommen werden, die versuchen nachzustellen, wie Nutzer mit technischen Systemen sprechen. Die sind aber alle relativ kurz. Da werden mal drei, vier Kommandos gemacht und das war’s. Also sozusagen eine längere Entwicklung wie Nutzer mit dem System sprechen ist relativ schwierig und da mussten wir erst in mehreren Forschungsprojekten, auch im großen Verbund, wo ich dann noch als Doktorand mitgearbeitet habe, erst einmal Daten generieren. Und wenn man die Daten hat, dann muss man sie noch auswerten und gucken, okay, da war jetzt die und die Emotionalität dabei und da die und die Emotionalität. Sich da rein zu fuchsen … Wie macht man das, dass es am Ende auch valide Aussagen sind, da muss man sich erst sehr lange reinlesen und überlegen, wie das funktioniert.

Lisa Baaske: Gab’s denn auch so einen Moment, wo Sie sich gesagt haben: Das ist jetzt vielleicht doch nicht mein Gebiet? Das ist mir, das ist mir jetzt gerade zu anstrengend. Vielleicht mache ich doch etwas anderes?

Prof. Ingo Siegert: Nee, ich fand das immer spannend. Mich hat dieses Interdisziplinäre immer gereizt. Und was das Schöne ist, dass ist bei mir vor allem darum geht, einen Erkenntnisgewinn zu bekommen. Also ich hab bestimmte Ideen, wie was sein könnte. Dann gucke ich in der Literatur, was da so passiert ist. Dann stelle ich eine Hypothese auf und will gucken, kann ich die Hypothesen bestätigen? Natürlich passiert es auch, dass ich eine Hypothese aufstelle, die sich nicht bestätigt hat. Das passiert ganz häufig. Und dann muss man halt gucken, okay, woran liegt das? War wenigstens mein Experimentaldesign, das ich durchgeführt habe dafür korrekt? Und kann es nicht daran liegen, dass ich irgendwo anders einen Fehler gemacht habe?

Aber dann ist es doch auch gut zu wissen, dass man sagt, okay, das ist halt nicht so. Dann ist es zwar nur ein Beispiel zu zeigen, funktioniert halt nicht, aber es ist auch ein Erkenntnisgewinn. Das ist manchmal auch ganz wichtig. Und das finde ich zur Zeit auch ein bisschen schade in den Wissenschaften, dass es immer nur darum geht, neues Wissen zu produzieren, immer besser und immer schneller und bessere Systeme zu bekommen, aber die Bestätigung von anderen Experimenten so ein bisschen ins Hintertreffen gerät. Also wenn zum Beispiel in Japan Wissenschaftler herausgefunden haben, dass Roboter in der Altenpflege Unterstützung liefern können, weil damit zum Beispiel die Demenz herausgezögert wird, wenn die Altenheimbewohner mit Robotern, was auch immer, interagieren können und da so ein bisschen die Gefühlswelt angesprochen wird, dann müssen diese Versuche auch mal in Europa oder in Amerika nochmal wiederholt werden, um zu gucken, wie reagieren die dabei, weil natürlich auch die Sozialisierung immer anders ist. Und das ist halt auch spannend, sich darüber auszutauschen.

Lisa Baaske: Ja, verstehe ich auf jeden Fall. Und wie Sie schon gesagt haben, vom Scheitern lernt man ja auch. Deswegen auf jeden Fall sehr spannend. Haben Sie es denn herausgefunden? Also worin unterscheidet sich denn die Kommunikation der Menschen untereinander zur Kommunikation mit technischen Systemen?

Prof. Ingo Siegert: Ja, also es gibt bestimmte Charakteristiken in der Sprache, die sich unterscheiden. Zum einen die Sprachmelodie. Wenn wir mit anderen Menschen sprechen, ist sie reichhaltiger und hat eine höhere Varianz, als wenn wir mit technischen Systemen sprechen. Auch die Varianz der Grundfrequenz ist anders. Das sind so die Hauptunterschiede. Was wir aber auch herausgefunden haben ist, dass das sehr individuell ist. Also es gibt bestimmte Sprecher, die auch mit technisch Systemen sehr reichhaltig sprechen, ihre Prosodie sehr stark ändern. Andere Nutzer machen das nicht. Das heißt, es muss später, wenn man ein technisches System hat, was auch diese Sprachmelodie erkennen will, immer auf die einzelnen Nutzer adaptiert werden. Und dann finde ich es aber sehr gut.

Lisa Baaske: Sie beschäftigen sich täglich mit Sprachassistenten. Was meinen Sie, wie nehmen Menschen dann solche technische Systeme wie Alexa wahr? Also wir sprechen mit ihnen eindeutig anders als mit Menschen quasi.

Prof. Ingo Siegert: Ja. Aber das wird sich nochmal ganz stark verändern. Also ich hatte vor anderthalb Jahren eine Grundschulklasse bei uns im Labor, die ich herumgeführt habe und dann mal mit Alexa interagieren lassen habe. Und die haben das ohne Scheu gemacht. Dann habe ich mal gefragt, ob sie Sprachassistenten zuhause haben und wie viele. Und bis auf zwei, wobei eine davon die Lehrerin war, hatten alle mindestens einen Sprachassistenten zuhause und manchmal sogar einen zweiten direkt im Zimmer, um Hörspiele anzuhören, um sich einen Wecker zu stellen, was auch immer. Also die wachsen da ganz anders mit auf. Das mag jetzt beängstigen klingen, aber ich glaube, das ist eine normale Entwicklung. Das Smartphone ist für uns ja heute auch schon allgegenwärtig, für unsere Eltern noch nicht. Das Gleiche findet sich beim Fernsehen vor 30/40 Jahren wieder, beim Radio genauso. Also wenn man auch in dieser Entwicklungsgeschichte mal zurückgeht und sich mal alte Zeitungsberichte oder auch alte Forschungsergebnisse heraussucht, dann gibt es dort immer die gleichen Diskussionen: Die Kinder werden verrohen. Es gibt keine zwischenmenschlichen Kontakte mehr. Das wird abgelöst durch das Radio oder das Fernsehen oder durch das Internet. Das findet sich immer wieder. Aber ich glaube, Menschen sind soziale Wesen und sind kommunikative Wesen, die das brauchen und ein Sprachassistent kann das nicht komplett ersetzen. Sollte es auch nicht. Aber natürlich, der Umgang damit wird ein anderer werden. Und auch das Verständnis dafür, wie die Dinge funktionieren, wird ein anderes werden.

Lisa Baaske: Ja, ich glaube auch, dass es durchaus sicherlich eine Generationsfrage ist. Ich persönlich nutze zum Beispiel auch keinen Sprachassistenten, weil ich einfach eine Notwendigkeit für mich noch nicht gesehen habe. Viele nutzen den Sprachassistenten aber auch nicht, weil sie Angst haben, abgehört zu werden. Stimmt das denn, hören Alexa und Co. denn immer mit?

Prof. Ingo Siegert: Jein. Also die Systeme sind … eigentlich sind das zwei Sprachassistenten, die in jedem Sprachassistenten drinnen sind. Der eine ist der lokale Sprachassistent, das ist sozusagen nur die Aktivierungserkennung. Da sind die Mikrofone immer an und die warten quasi auf den Trigger. Wenn eine akustische Äußerung so ähnlich klingt wie das eingestellte Aktivierungswort, also hey Siri, hey Google, Alexa oder was auch immer, dann wird das Gerät erst aktiviert und dann hören die Geräte zu, nehmen das Gesagte auf und leiten das dann weiter in die Cloud, wo das dann genauer analysiert wird. Das heißt, sie lauschen eigentlich nicht immer. Sie warten quasi immer auf den Trigger. Und auch dann, wenn dieser Trigger aktiviert wird und die Äußerung sozusagen analysiert wird, gibt’s meistens noch einen zweiten Schritt, dass auch geguckt wird, ob der Trigger und das, was danach kam, auch wirklich ein Kommando ist, das ausgewertet wird.

Lisa Baaske: Okay, gut, das beruhigt jetzt vielleicht einige Leute. Wer weiß? Also neben den Sorgen sind ja aber auch viele Menschen sehr begeistert von Sprachassistenten. Ich war auch sehr überrascht, als es Anfang des Jahres hieß, wir haben jetzt an der Uni die Möglichkeit, Sprachassistenten zur Studienorientierung zu nutzen. Wie kam es denn dazu?

Prof. Ingo Siegert: Das war so eine Idee, die in meiner einen Vorlesung entstanden ist. Ich habe eine Vorlesung zu Dialogsystemen, wo es auch darum geht, was ist eigentlich ein Dialog mit technischen Systemen, was kann man damit machen? Wie weit sind heutige Systeme, die schon zu kaufen sind, auch sozusagen Dialoge mit Menschen zu führen? Meistens ist es ja so, die Geräte heutzutage führen so Oneshot-Dialoge. Also ich kann eine Anfrage stellen, krieg die Antworten und bin fertig. Und bei Dialogen geht es ja eher darum, eine Information, die mehrere Zwischenschritte benötigt, zu erlangen. Und da hab ich mit den Studierenden überlegt, was könnte man mal machen, um das mal zu untersuchen und haben gedacht, lasst uns doch das mal für die Studieorientierung implementieren in Alexa. Wie weit kommt man damit und was passiert? Und dann war es auch geradeso, die anfangende Pandemielage, wo wir gedacht haben, das wäre vielleicht eine gute Option, wenn die Studierenden oder Studieninteressierten nicht zur Uni kommen können, vielleicht die Uni dorthin zu schicken. Und viele von denen nutzen halt auch Sprachassistenten. Und da war es halt die erste Idee, vielleicht so etwas mal umzusetzen.

Lisa Baaske: Genau das könnte ja die Generation sein, die schon quasi damit aufgewachsen sind und deswegen liegt es denen vielleicht auch sehr nah. Wie kann man sich das denn generell so vorstellen? Was war denn der Schritt von dieser Idee eben dazu bis man jetzt wirklich sagen kann, okay, Google sprich mit der Uni Magdeburg?

Prof. Ingo Siegert: Also zuerst muss ich überlegen, wie kann so ein Dialog geführt werden. Da haben wir mit der Allgemeinen Studienberatung zusammengearbeitet, um so ein bisschen zu eruieren, wie führen die denn so Anfangsdialoge, um überhaupt erst einmal rauszufinden, wo liegen die Interessenslagen und haben dann daraufhin so einen ganz einfachen Dialog entwickelt, der sich auch umsetzen lässt in einem Sprachassistenten, um überhaupt erstmal herauszufinden, in welche Richtung geht das denn, ohne dass das System einfach fragt, für welche Richtung interessierst du dich denn? Weil, das ist so eine Frage, wenn man die einem Studieninteressierten stellt, darauf wird er wahrscheinlich keine gute Antwort geben können. Um das so ein bisschen zu leiten, haben wir uns daran orientiert, das dann umgesetzt und dann überlegt, okay, was sind denn die Möglichkeiten, die an den Stellen von den Nutzern gesagt werden können? Manchmal versucht man da so ein bisschen sie hin zu leiten, indem man so klassische Ja-Nein-Fragen stellt. Oder halt, wenn sie sich zwischen bestimmten Dingen entscheiden sollen. Wir hatten: Interessierst Du Dich eher für Naturwissenschaften, Technik oder Gesellschaftswissenschaften? Dann können quasi diese Entweder-oder-Begriffe auch als Antwort gegeben werden. Und das halt umzusetzen, dann zu testen, ganz viel zu testen, und dann halt die Schwierigkeit in der Pandemie-Lage auch mal andere Nutzer zu finden, die das System mal testen können unter realen Bedingungen. Also wir als Entwickler, wir wissen ja, was wir an bestimmten Stellen sagen müssen. Ein bisschen Fantasie, was gesagt werden könnte, hat man vielleicht noch, aber irgendwo hört es dann auf. Okay, dann müssen wir gucken, wie bekomme ich das hin? Da gab’s zum Glück dann ein, zwei Termine im Herbst letzten Jahres, wo es wieder möglich war, das alles nochmal zu testen, um zu sehen, wie die Nutzer damit interagieren.

Lisa Baaske: Ich erinnere mich. Ich war auf jeden Fall bei einem Termin dabei, da war es noch relativ frisch und da ging es dann auch darum, was könnten die denn sagen, damit es dann weitergeht. War das denn auch das größte Problem daran, quasi alle Möglichkeiten abzudecken, wie die 18-Jährigen dann darauf antworten?

Prof. Ingo Siegert: Ja, das ist bei solchen Sachen das große Problem. Vor allem, man will sie ja nicht verlieren. Das heißt, man muss halt auf alle Eventualitäten irgendwie reagieren können, weil, wenn jetzt die Uni Magdeburg ein Sprachskill hat, mit dem Studieninteressierte interagieren können, auch wenn das Ganze ein bisschen spielerisch umgesetzt ist, um überhaupt erst mal Interesse zu schüren. Und dann kommt sowas wie: „Ich konnte dich nicht verstehen.“ Dann ist das super frustrierend und dann wird es halt auch von Nutzern nicht wahrgenommen als ein Problem von Amazon oder Google, sondern es ist ein Problem von der Uni Magdeburg und das wollten wir halt vermeiden. Das war so die Hauptsache.

Lisa Baaske: Ich weiß auf jeden Fall, dass es funktioniert. Ich hab’s nämlich einmal ausprobiert und bei mir kam auch Germanistik raus. Das, was ich studiert habe.

Prof. Ingo Siegert: Das ist sehr schön.


Lisa Baaske: Also es ist alles gut gelaufen. (lacht) Im Moment funktioniert der Sprachskill ja nur für Bachelorstudiengänge. Wird das dann noch weiter entwickelt? Wird noch weiter dran gearbeitet?

Prof. Ingo Siegert: Im Moment nicht. Da fehlen mir die Kapazitäten, das umzusetzen. Aber prinzipiell, der ist vorhanden und kann auch erweitert werden. Wir hatten auch noch ein paar andere Ideen, dass man vielleicht auch so einen, FAQ-Bereich anbietet, wo Studieninteressierte fragen können: Bis wann muss ich denn die Anmeldeunterlagen abschicken? Wie lange dauert das? Hat der und der Studiengang einen NC? Und man dann vielleicht auch auf bestimmte Events hinweisen könnte. Also, komm vorbei, dann und dann ist das Sommer-Picknick oder dort hat der Fachbereich einen Informationstag. Sowas in der Art. Aber das muss halt auch gepflegt werden und da hab ich im Moment die Kapazitäten nicht für.

Lisa Baaske: Vielleicht kommen sie ja nochmal. Klingt auf jeden Fall sehr spannend, und ich glaub, wir würden uns alle drüber freuen. Was denken Sie denn generell, wie die Entwicklung der Sprachassistenzsysteme sein wird? Also was werden sie denn in 10 Jahren können?

Prof. Ingo Siegert: Ich glaube in 10 Jahren wird es bessere Anwendungsfälle geben. Wenn man sie jetzt mal vergleicht mit Apple und dem App-Store, der ja irgendwie 2009 aufkam und es dann irgendwann die ersten Apps zum Runterladen gab. Die ersten drei Apps waren irgendwie so ein virtuelles Feuerzeug oder irgendwelche Tongeneratoren. Bei den Skills oder den Aktions, den Sprach-Apps, die man für Alexa und Google nutzen kann, ist glaube ich im Moment auf Platz 1 bis 5 in den meisten europäischen Ländern der Pups-Generator.

Lisa Baaske: OK. (lacht)

Prof. Ingo Siegert: Also das ist im Moment sehr spielerisch, aber das wird sich wandeln. Da wird es bestimmte Anwendungsfälle geben, wo Sprachassistenten wirklich eine Hilfe bieten können. Das sind dann die ersten Sachen, die dann kommen werden. Also zum Beispiel den Zählerstand per Sprachassistenten durchzugeben, dass man nicht mehr anrufen muss. Vielleicht auch schnellere Hilfe in bestimmten Fällen, wo man sonst immer einen Computer anmachen musste, um eine E-Mail zu schreiben oder um mit einem Chatbot zu arbeiten, dass man das sozusagen auch über einen Sprachskill erledigen kann. Das werden so die ersten Sachen sein, die kommen werden. Dann sicherlich auch die Integration in viele mobile Anwendungen. Als Beispiel: Im Auto bietet es sich ja an, viel mehr per Sprache zu machen, weil Knöpfe zu drücken, das Lenkrad loszulassen, irgendwo hin zu gucken ist immer eine Ablenkung. Und Freisprecheinrichtung sind ja mittlerweile in fast allen Autos verbaut. Und da mehr Möglichkeiten schaffen, auch Sachen per Sprache zu bedienen, wird einfach kommen. Auch weil es einfach vielfach intuitiver sein kann. Also im Moment, ist es so, wenn man sich ins Auto setzt und irgendwas ändern will – Musik abspielen, was weiß ich, CD abspielen, einen anderen Sender einstellen, eine Routen-Navigation anstellen –, man muss erst einmal durch drei oder vier Menüebenen durch, eh man da hinkommt. Und das Ganze kann man, wenn man ein gutes Dialog-Design durchsetzt, per Sprache wesentlich einfacher machen, weil man irgendwann dazu übergehen kann zu sagen, starte bitte mal die Navigation. Ich möchte jetzt auf der schnellsten Route von Magdeburg nach Berlin fahren. Quasi eine Äußerung und man ist eigentlich gleich durch alle fünf Menüebenen, die es da gibt, einmal durch. Man weiß gar nicht mehr, wo man da eigentlich ist. Also diese Abstraktionen, die es zurzeit bei den Smartphones gibt … man öffnet eine App, man weiß gar nicht, ist das eine Website, ist das eine richtige App? Wo werden die Daten gespeichert? Was passiert sozusagen eigentlich intern damit? Diese ganze Quasi-Oberfläche, die man noch aus dem Standard-Desktop-PC kennt, wo man erst mal Startmenü drücken muss und sich durchklicken muss, verschwindet ja auch in dieser App-Oberfläche. Und so eine ähnliche Entwicklung wird auch bei den Sprach-Apps kommen, die dann, gerade wenn es natürlich sprachlich wird und man komplexere Anfragen en bloc stellen kann, ihre komplette Stärke ausspielen können.

Lisa Baaske: Was würden Sie sich denn wünschen, unrealistisch gefragt, was sie dann in 10 Jahren schon können?

Prof. Ingo Siegert: Eine bessere Assistenz zu bieten in alltägliche Situationen, ohne auffällig zu sein. Also dass Sie es erlauben, komplexe Zusammenhänge in der Steuerung von Geräten einfacher abbilden zu können, dass sich der Nutzer quasi nur merken muss, was ist das, was ich möchte? Wie würde ich das normalerweise sagen, um das durchzuführen? Und dann die Unterschiede zwischen bestimmten Geräteherstellern, zwischen bestimmten Automarken an dieser Stelle quasi verschwinden könnten. Weil, nichts ist schlimmer als verschiedene technische Geräte, die das gleiche machen, versuchen zu bedienen und unübersichtliche Menüstrukturen zu haben und nicht zu wissen, wo muss ich eigentlich hin. Das damit auch so ein bisschen diese Angst vor „ich bediene jetzt Technik“ verloren geht.

Lisa Baaske: Dann bin ich tatsächlich auch schon bei meiner letzten Frage angekommen. Geben Sie uns gerne nochmal einen Einblick in die Zukunft. Was steht demnächst auf Ihrem Plan? Was wollen Sie noch erforschen? Womit wollen Sie sich noch beschäftigen?

Prof. Ingo Siegert: Im Moment bin ich gerade dabei, ein Forschungsprojekt anzufangen, wo es darum geht, den Datenschutz zu erhöhen für Sprecher. Wenn ich Sprachassistenten bediene, ist es im Moment ja nur wichtig, was gesagt wird. Es ist nicht unbedingt wichtig, wer es gesagt hat. In Zukunft, wenn auch prosodische Informationen wichtig werden, dann ist es natürlich auch wichtig, wie etwas gesagt wird. Aber es ist immer noch nicht wichtig, dass ich das gesagt habe, um den Sprachassistenten zu bedienen. Das heißt, wir versuchen gerade ein Projekt zu starten, bei dem wir eine Technik entwickeln wollen, die es uns ermöglicht, die Sprecher-Identität zu verschleiern, aber den Sprachinhalt und die Sprachprosodie oder die Emotionalität dabei zu erhalten. Dass ich also immer noch mit Sprachassistenten interagieren kann, sie steuern kann, dass die Sprachassistenten auch auf meine prosodische Information reagieren können. Also bin ich gerade verärgert, weil das System mich fünfmal nicht erkannt hat? Oder bin ich mir ganz sicher, dass ich genau das so durchführen will, ohne dass das System weiß, dass ich es bin? Und das kann für sehr viele Anwendungsfälle ein großer Vorteil sein. Also dass man dann auch im öffentlichen Raum mit Systemen per Sprache interagieren kann, ohne dass die Systeme wirklich wissen, dass ich das bedient habe. Das ist sozusagen die Idee. Das lässt sich natürlich viel, viel weiter treiben, auch in andere Fälle rein. Wenn man jetzt daran denkt, quasi anonyme Beratungsangebote in Anspruch nehmen zu können, wo man dann vielleicht noch die Barriere senken kann, dass Beratung genutzt wird, zum Beispiel bei Hotlines für Gewalt gegen Frauen oder bei Gewalt gegen Kinder, dass die Opfer sich erstmal anonym dahin wenden können, ohne dass sie Angst haben müssen, erkannt zu werden und aber trotzdem geholfen werden kann, weil sie inhaltlich und emotional verstanden werden.

Lisa Baaske: Ok, das klingt auf jeden Fall sehr spannend. Ich wünsche Ihnen ganz viel Erfolg dabei. Danke. Ansonsten sind wir tatsächlich jetzt schon am Ende angekommen. Vielen, vielen Dank, dass Sie sich die Zeit genommen haben. Danke für die spannenden Einblicke. Vielleicht traue ich mich ja demnächst doch und lasse einen Sprachassistenten bei mir einziehen. Auch Ihnen vielen Dank fürs Zuhören. Ich hoffe, Sie sind dann auch bei der nächsten Folge im November mit dabei.

Introstimme: Wissen, wann du willst. Der Podcast zur Forschung an der Uni Magdeburg.