Trendthema Sprachsteuerung

Warum Siri und Co. die Zukunft gehört

21.06.2013
Von Tobias Wendehost

Dritter Weg: Hybride Technik

"Hybride Systeme für Sprachverarbeitung sind im Kommen", so Norbert Pfleger, Geschäftsführer bei Semvox.
"Hybride Systeme für Sprachverarbeitung sind im Kommen", so Norbert Pfleger, Geschäftsführer bei Semvox.
Foto: Semvox

Bei der Entwicklung neuer Programme setzen einige Anbieter auf die Kombination beider Lösungen: hybride Spracherkennung. "Wir sehen einen Hybrid-Ansatz derzeit als Idealweg", erläutert Pfleger. "Bei diesem Ansatz arbeitet die Software auf einem lokalen, grammatikbasierten System. Gleichzeitig läuft ein Open-Domain-Erkenner im Hintergrund."

Die Verknüpfung der Technologie wird da interessant, wo Anwender in einem individuellen Kontext handeln. Ein Beispiel sind Navigationssysteme in Autos. Befindet sich der Fahrer gerade in einer fremden Umgebung und sucht zu einer bestimmten Tageszeit ein Restaurant, dann sollte das System diesen Kontext berücksichtigen. Ist er um 9 Uhr morgens unterwegs und will etwas essen, dann fahndet die Software im Idealfall nach einem Lokal mit Frühstück.

Beim sogenannten situativen Kontext werden Faktoren wie Ort, Uhrzeit, aber auch Wetterdaten berücksichtigt. Daneben spielen Interaktionshistorie und Diskurskontext eine Rolle. Unterhält sich der Fahrer mit dem Beifahrer über einen Ort oder ein Ereignis, dann sollte das System die im Gespräch behandelten Objekte tracken und später abrufen. Schließlich ist auch der Applikationskontext von Bedeutung. So erkennt eine Anwendung wie Voice Remote Control, dass ein Gerät bereits eingeschaltet ist. Sagt der Anwender: "Schalte das Licht an", antwortet das System: "Das Licht ist angeschaltet."

Anwender Stephen Hawkin

Hybride Modelle sind eine Möglichkeit, um komplexe Interaktionen zu verarbeiten. Standardbefehle für die Navigation sind in der Bibliothek des Navigationsgeräts oder Smartphones gespeichert. Die Verarbeitung funktioniert schneller, und der Nutzer erhält ein zuverlässiges Ergebnis. Gleichzeitig benötigt das System für den Kontext, also etwa bei der Restaurantsuche für das Abendessen, Daten vom Server.

Im Gesundheitswesen hat sich Sprachsteuerung zu einem wertvollen Werkzeug entwickelt. Ein prominentes Beispiel ist "Dectalk", eine in den 1980er Jahren entwickelte Text-to-Speech-Anwendung, die unter anderem der Physik-Nobelpreisträger Stephen Hawking nutzt. In Folge einer Luftröhrenoperation konnte der britische Physiker nicht mehr sprechen. Ein speziell entwickelter Sprachcomputer ermöglicht ihm, durch Augenbewegungen Begriffe auf einem Bildschirm auszuwählen, die dann vom integrierten Sprachgenerator wiedergegeben werden.

Spracherkennung in der Medizin

Neben diesem individuellen Einsatzszenario, werden im Gesundheitswesen auch allgemeinere sprachbasierte Lösungen erforscht. Die Entwicklung befindet sich aber noch am Anfang. Beispielsweise erprobt Semvox in Kooperation mit dem Universitätsklinikum Schleswig-Holstein die Sprachsteuerung im Operationssaal. "Ärzte sollen einen Zugriff auf digitale Bilddatenbanken bekommen, ohne die Hände benutzen zu müssen", erklärt Pfleger.

Zur Startseite