Sprachsysteme

Sprechreif

Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Für die Zukunft betrachtet Frost & Sullivan die zunehmende Verbreitung von Sprachtechnologie als einen sich selbst verstärkenden Prozess: Immer mehr Nutzer erkennen die Vorteile, wodurch sich wiederum die Nachfrage erhöht. Durch StandardisierungStandardisierung, fallende Preise und die immer leistungsfähiger werdende Sprachsoftware wird diese Entwicklung beschleunigt. Alles zu Standardisierung auf CIO.de

Den Grund für den Aufschwung der Sprachtechnologie sehen Marktbeobachter in deren technischen Reife. Die Software versteht inzwischen Akzente oder Dialekte, ohne vorher trainiert werden zu müssen. Neue Erkennungssysteme erlauben darüber hinaus eine benutzerfreundliche Gestaltung des Sprachdialogs: die Möglichkeit des freien Inputs, Unterbrechungsoptionen ("Barge in"), kontinuierliche Schlüsselworterkennung ("Word Spotting") und Filtermechanismen für Hintergrundgeräusche.

Auch das Erzeugen gesprochener Worte aus Texten, die Sprachsynthese, hat sich positiv entwickelt. Hierfür gibt es zwei unterschiedliche Ansätze:

- Man verwendet gestückelte, im Voraus aufgenommene Audiodateien, die im Live-Betrieb wieder zusammengebaut werden. Und zwar mit verschiedenen Betonungen, sodass der Anrufer es kaum merkt.

- Die Text-to-Speech-Lösungen nehmen ihre Texte aus einer Datenbank und setzen sie synthetisch über gespeicherte Stimmmuster zusammen.

Erkennung gut, Ausgabe roboterhaft

Lars Müller, Sprachexperte am Münchener Fraunhofer-Institut, sieht hier jedoch noch Verbesserungspotenzial: "Die Spracherkennung ist zwar im Allgemeinen gut. Was für die Nutzer aber manchmal noch ärgerlich ist, ist die Sprachsynthese", gibt er zu bedenken. "Zusammengestückelten Audiodateien fehlen oft der Fluss und die Betonung, und die synthetischen Roboterstimmen sind für das Ohr des Menschen nicht deutlich besser geworden."

Zugelegt hat auch die Standardisierung in der Systementwicklung und bei den Dialogbeschreibungssprachen. "Die Entwicklung von Sprachapplikationen ist viel einfacher geworden", sagt Christoph Pfeiffer, Vorstandsvorsitzender des Sprachportalspezialisten Clarity AG. "Es gibt heute schon Komplettangebote, die der Kunde von der Hardware über Software, Datenbanken und Sprachausgabe bis hin zum Dialogmanagement für 500 bis 600 Euro pro Monat bekommt."

Zur Startseite