Spracherkennung zur Rehabilitation bei beeinträchtigter Sprechverständlichkeit
Sprechen ist die wohl offensichtlichste Möglichkeit zu kommunizieren, sich an sozialen Interaktionen zu beteiligen und seine Persönlichkeit auszudrücken. Um Einschränkungen der Sprechfähigkeit durch Alter, Krankheit oder Behinderung entgegenzuwirken, haben das Fraunhofer-Institut für Digitale Medientechnologie IDMT in Oldenburg und das ISi-Speech-Konsortium ein System entwickelt, das Gesprochenes selbstständig erkennt, Fehler analysiert und korrigiert. Personen, deren Sprechfähigkeit eingeschränkt ist, können diese Fähigkeit nun erstmals umfangreich selbstständig trainieren.
Rund 16.000 Worte spricht jeder von uns. Jeden Tag. Und unabhängig davon, welchen Geschlechts wir sind. Die gesprochene Sprache ist ein tragendes Element unserer Kommunikation. Und sie lebt nicht nur von der Vielzahl der knapp 14.000 Wörter, die unseren aktiven Wortschatz bilden, sondern auch von der Nuancierung. Von den kleinen Feinheiten bei der Aussprache, etwa von der Sprechgeschwindigkeit, der Betonung einzelner Silben oder der Lautstärke. Kurz: Wer die Umgebungssprache spricht, ist mittendrin im menschlichen Geschehen. Und wer die Feinheiten der Aussprache beherrscht, wird es leicht haben, dieses Geschehen aktiv zu gestalten.
All das kennen wir von Auslandsaufenthalten. Mit dem Beherrschen der Landessprache und vielleicht sogar den typischen Sprechweisen sind viele Vorteile verbunden. Deshalb können wir wohl ein Stück weit nachvollziehen, warum eine Einschränkung der Sprachfähigkeit für Menschen nahezu immer gleichbedeutend ist mit einer verminderten Teilhabe. Das mag in einem Urlaub kaum von Bedeutung sein, aber für Menschen, die eine Sprache zwar vollständig beherrschen, sie aber nicht oder nur schlecht nutzen können, weil ihre Sprechfähigkeit eingeschränkt ist, hat das Thema eine hohe Relevanz. Ursache für diese Problematik kann z.B. ein Schlaganfall sein, der eine Dysarthrie, also eine Sprechstörung, zur Folge hat. Oder zunehmendes Alter. Oder Krankheiten wie Morbus Parkinson und Multipler Sklerose. Die Folgen sind oftmals ein sozialer Rückzug und damit auch eine weitere Reduzierung des Sprechens. Zudem führt beispielsweise Morbus Parkinson häufig dazu, dass die Selbsteinschätzungsfähigkeit des Patienten und damit auch des eigenen Sprechens abnimmt. Das alles kann zur Folge haben, dass sich das Sprechen der Betroffenen weiter verändert und die Sprache immer unverständlicher wird.
Sprechen in Verbindung mit einem qualifizierten Feedback ist also wesentlich, um sich Fehler bewusst zu machen und Sprachfertigkeiten wieder bestmöglich zurückzugewinnen. Oder, wie bei Morbus Parkinson, den Verlust zumindest zu verlangsamen. In der Regel übernehmen Logopäden im Rahmen einer Sprach- und Sprechtherapie ein- bis zweimal pro Woche diese Aufgabe. Freunde und Verwandte sind dann für das Üben zuhause zuständig. Zumindest letzteres ist aber eher der Idealfall, weil vielen Patienten eine entsprechende Unterstützung fehlt oder ihnen die Hilfe »unangenehm« ist.
Intelligente Spracherkennung
Im vom Bundesministerium für Bildung und Forschung geförderten Projekt »ISi-Speech« haben Forscher und Sprechexperten deshalb ein System entwickelt, mit dem Betroffene dank intelligenter, computergestützter Spracherkennung ihre Sprechfähigkeit selbstständig trainieren können. Beteiligt an dem Ende vergangenen Jahres abgeschlossenen Projekt war auch das Fraunhofer-Institut für Digitale Medientechnologie IDMT. Das Team des Institutsteils Hör-, Sprach- und Audiotechnologie in Oldenburg hat für ISi-Speech Algorithmen und Methoden entwickelt, um individuell und meist fehlerhaft ausgesprochene Wörter und Sätze zuverlässig zu erkennen und die Korrektheit des Gesprochenen zu bewerten. Dazu gehörte unter anderem auch der Aufbau einer Datenbank für gestörte Sprache, ein sogenannter Sprachkorpus.
»Die Schwierigkeit der Worterkennung ist dabei unter anderem, dass schon bei ›normal‹ sprechenden Menschen die Aussprache sehr unterschiedlich sein kann«, erläutert Stefan Goetze, Projektleiter am IDMT und Leiter der Gruppe »Automatische Spracherkennung« des Institutsteils. Das betreffe nicht nur Tonhöhe, Sprechgeschwindigkeit, Dehnung, Grundfrequenzhöhe (zum Beispiel bei Frage und Behauptung) oder die Art und Weise wie Phoneme ausgesprochen werden. Ein Phonem ist die kleinste sprachliche Einheit, deren Aussprache einen teils erheblichen Unterschied in der Bedeutung ausdrücken kann. Ein Beispiel sind »p« und »b« in Pein und Bein. Auch Färbungen durch das Alter eines Manschens und vor allem dialektale Prägungen würden das korrekte Erkennen eines Wortes deutlich erschweren. Durch die körperlichen Probleme der Patienten wird diese Herausforderung nun noch vervielfacht, weil gewünschte Laute nicht mehr korrekt im Kehlkopfraum, Mund-Rachen-Raum oder Nasenraum gebildet werden können.
Spracherkennung durch neuronale Netze
Trotz der unendlichen Diversität menschlicher Sprechweisen muss das maschinelle Gegenüber erkennen, welches Wort ein Patient aussprechen wollte und wo die Differenz zur korrekten Aussprache im jeweiligen Kontext liegt. Die Forscher am Fraunhofer IDMT in Oldenburg setzen deshalb neuronale Netze ein. »Dabei haben wir Lernverfahren und Arbeitsweise der neuronalen Netze mit Methoden der Signalverarbeitung kombiniert«, erklärt Goetze. Durch die Ergänzung klassischer Signalverarbeitung mit der Intelligenz intensiv trainierter neuronaler Netze werde es für das System erstmals möglich zu »verstehen«, was gemeint ist. Damit könne es einen Vergleich mit der in der Datenbank hinterlegten, passenden Aussprache ziehen. So werde ISi-Speech in die Lage versetzt, nicht nur – ähnlich wie ein Vokabeltrainer – die Aussprache einzelner, vorgegebener Worte zu kontrollieren, sondern auch Übungen auf höherem Niveau durchzuführen. Dazu gehört beispielsweise das Feedback zur Spontansprache. Wenn Patienten vom System z.B. aufgefordert werden, frei über Erlebnisse zu berichten und so den kommunikativen Alltag üben.
Die Methodik ist mittlerweile so ausgereift, dass sie eingesetzt werden kann, um mit Patienten zu trainieren. Trotzdem wollen die Forscher aber weitermachen. Im Folgeprojekt »THERESIAH« wird es deshalb darum gehen, dass ISi-Speech nicht nur Worte und Sätze korrekt interpretiert, sondern auch kleine Nuancen auf der Ebene der Phoneme unterscheiden lernt. Auf diese Weise lässt sich dann noch genauer analysieren, ob das Ausspracheproblem auf die Lautbildung bestimmter Sequenzen zurückzuführen ist und ob beispielsweise die Aussprache einzelner Buchstaben oder Laute, z. B. das »Sch«, gesondert behandelt werden muss.
(aku)
Expert*in
Dr. Stefan Goetze
Fraunhofer-Institut für Digitale Medientechnologien IDMT