Die Sprachgenerierungsfunktion von GenAI lässt sich in zwei Hauptkategorien unterteilen: Text-zu-Sprache-Synthese und Stimmklonung. Die Text-zu-Sprache-Synthese wandelt Eingabetext in gesprochene Sprache um und wird vor allem in Sprachassistenten wie Kundenservice-Bots eingesetzt. Für Unternehmen bietet diese Technologie die Möglichkeit, hochwertige Vertonungen für multimediale Contents wie Videos, Podcasts und Werbeanzeigen zu erstellen – und das ohne den Aufwand teurer Studioaufnahmen. Ein großer Vorteil liegt in der Personalisierung. KI-generierte Stimmen können an die Vorlieben der Zielgruppe angepasst werden, beispielsweise durch die Wahl eines bestimmten Dialekts, Akzents oder Sprachstils. Die Qualität der Sprachausgabe hat mittlerweile ein nahezu natürliches Niveau erreicht. Ein bekanntes GenAI-Tool für Sprachesynthese ist beispielsweise ElevenLabs.
Bei der Stimmklonung wird die Stimme einer bestimmten Person als Vorlage verwendet, um eingegebene Texte oder Sprache in deren Stimme zu konvertieren. Ein bekanntes Beispiel sind Navigations-Apps, die Stimmen von Prominenten nutzen. Eine der beeindruckendsten Fähigkeiten der Stimmklonung ist es, die Stimme eines Sprechers in mehreren Sprachen zu synthetisieren. Das ermöglicht es Unternehmen, ihre Medien-Assets in verschiedene Sprachen zu übersetzen und zu lokalisieren, ohne dabei den charakteristischen Klang der ursprünglichen Stimme zu verlieren. Stell dir vor, ein englischsprachiger Sprecher könnte fließend auf Mandarin sprechen – eine Technologie, die Sprachbarrieren überwindet, interkulturelle Kommunikation revolutioniert und globale Märkte zugänglicher macht. Dazu fähige Gen-AI Tools sind z. B. Podcastle und Epidemic Sound.
KI beschränkt sich jedoch nicht nur auf die Erstellung neuer Audios, sondern kann auch bestehende Aufnahmen verbessern. Falsch ausgesprochene Wörter oder Skriptänderungen lassen sich mühelos korrigieren, ohne dass eine neue Aufnahme erforderlich ist. Darüber hinaus kann KI die Audioqualität optimieren, indem sie fehlende Informationen rekonstruiert und Störgeräusche oder Verzerrungen entfernt. Dies ist besonders nützlich bei der Restaurierung alter oder beschädigter Medien, die oft von minderer Qualität sind. Descript und Cleanvoice sind beispielsweise beliebte GenAI-Tools mit dieser Funktion.
Zusätzlich wird KI auch für intelligente Spracherkennung eingesetzt, die eine präzise Transkription gesprochener Sprache in Text ermöglicht. Gen-AI Tools dafür sind z. B. Sally und Clipto.AI.
Wahrnehmung von KI-generierten Audios
Trotz der beeindruckenden Fortschritte bestehen weiterhin Herausforderungen bei der Akzeptanz von KI-generierten Audios. Studien zeigen, dass Zuhörer zwar Unterschiede zwischen synthetischen und menschlichen Stimmen erkennen, wodurch die Qualität der menschlichen Stimme höher bewertet wird, die Wirksamkeit der Inhalte jedoch nahezu identisch ist [1]. Dies liegt vermutlich daran, dass synthetische Stimmen bereits in vielen Bereichen wie Navigation oder Sprachassistenten weit verbreitet sind und die Nutzer daran gewöhnt sind.
Neue Sprachmodelle wie Moshi von Kyutai oder GPT-4o von OpenAI zielen darauf ab, KI-Interaktionen noch natürlicher und emotional intelligenter zu gestalten. Moshi kann beispielsweise über 70 Emotionen ausdrücken und Sprachaufnahmen in verschiedene Sprechstile umwandeln, was die Interaktion ansprechender und effektiver gestaltet. Das GPT-4o-Modell hat die Fähigkeit, benutzerdefinierte Charakterstimmen, Akzente und Soundeffekte zu erstellen und als Live-Übersetzer zu fungieren.
Dennoch ist KI immer noch am lernen, Humor, Subtext und Emotionen zu verstehen – Faktoren, die für authentische Interaktionen entscheidend sind. Die Zukunft verspricht natürlichere und emotional intelligentere KI-Interaktionen, um Vertrauen bei Nutzern zu erzeugen und Authentizität zu wahren.
Bild: KI-generiert mit DALL-E



