Gesprochen von Darth Vader
Chancen und Grenzen der Sprachsynthese
Digitale Medien verändern die Form der Wissensvermittlung, und zwar von reinem Text hin zu Bildern und gesprochener Sprache. Denn in vielen Bereichen ist gesprochene Sprache besser geeignet, Inhalte zu kommunizieren als reiner Text.
Klingt gut. Kann’s auch was?
Besonders bei Videos und E-Learnings ist gesprochene Sprache in Form von Synchronisation (ggf. lippensynchron) oder Voice-Over (Off-Stimme) häufig die bessere Wahl. Bislang wurden diese Vertonungsarten aufwändig im Tonstudio mit Sprecher:in, Toningenieur:in und teilweise sogar Regisseur:in produziert.
Dem gegenüber steht die Sprachsynthese, also die softwarebasierte Erzeugung einer synthetischen und dabei möglichst menschlich klingenden Sprechstimme. Diese Technologie (auch Text-to-Speech, TTS) hat sich in den letzten Jahren stark weiterentwickelt – nicht zuletzt durch die zunehmende Verfügbarkeit von Deep Learning beziehungsweise künstlicher Intelligenz (KI).
Die Entwicklung der Sprachsynthese:
Ansatz | Eigenschaften |
Phonembasierte Sprachsynthese | Häufig mechanischer oder künstlicher Klang, geringere Stimmenauswahl |
Sprachsynthese basierend auf „KI“ (Machine Learning) | Weitestgehend natürlich klingende Stimmen, wenig Justiermöglichkeiten |
Sprachsynthese basierend auf „KI“ mit SSML-Fähigkeit | Auszeichnungssprache SSML ermöglicht deutlich besseres Finetuning vieler Aspekte |
Während menschliche Sprecher:innenaufnahmen nach wie vor der Goldstandard beispielsweise bei hochwertigen Marketingvideos sind, bietet Sprachsynthese – mittlerweile auch basierend auf trainierten KI-Sprachmodellen – für etliche Bereiche eine ernstzunehmende Alternative.
Weniger Kosten. Und sonst?
Ein Vorteil der Sprachsynthese sind die reduzierten Kosten und Produktionszeiten. Damit wird die Nutzung von gesprochener Sprache auch dort möglich, wo das bisher nicht denkbar war. Untertitel müssen nicht mehr als Notlösung anstelle einer Sprecher:innenstimme herhalten. Und: Sprachsynthese macht Dinge möglich, die im Aufnahmestudio so nicht machbar sind. Sie können zum Beispiel ein Sprachmodell mit einer beliebigen Stimme erstellen und Ihre E-Learnings damit vertonen.
Die Vor- und Nachteile von Sprecher:innenaufnahmen versus Sprachsynthese:
Aspekt | Sprecher:innenaufnahme | Sprachsynthese |
Optimale Möglichkeiten, die Wirkung der Stimme im Detail festzulegen (Aussprache, Betonung, Satzmelodie ec.) | ja | nein |
Kurzfristige Produktion | meist nein | ja |
Überschaubare Kosten (speziell bei mehreren Sprachen) | nein | ja |
Einfache, kostengünstige Nachaufnahmen | nein | ja |
Stimme meist ständig verfügbar | nein | ja |
Einfache kostengünstige Lizenzmodelle | nein | ja |
Erstellung eigener Sprachsynthesemodelle mit beliebiger Stimme (z. B. der von Darth Vader) | nein | ja |
Es ist wie immer: Es kommt drauf an.
Je nach Verwendungszweck, Zielgruppe und Qualitätsanforderungen hat die Sprachsynthese auch Grenzen. In bestimmten Anwendungsszenarien wird der gewünschte kommunikative Zweck nach wie vor nur mit einer Aufnahme von professionellen Sprecher:innen erreicht. Vor allem bei Image- und Produktvideos, bei denen die Art des Sprechens und die damit verbundene Emotionalität in der Stimme einen essentiellen Bestandteil der Marketingbotschaft darstellt.
Die Entscheidung für oder gegen Sprachsynthese sollte nach genauer Betrachtung der zu vertonenden Inhalte und der benötigten Sprachen und Sprachvarietäten erfolgen.
Hier einige Entscheidungskriterien:
Art des Inhalts bzw. Rahmenbedingungen | Umsetzung möglich durch |
Hochglanz-Imagevideo mit Stimme, die maßgeblich zur Atmosphäre und Emotionalität im Video beiträgt | Klassische Sprecher:innenaufnahme |
Technisches Erklärvideo | Sprachsynthese |
Produktvideo | Klassische Sprecher:innenaufnahme oder Sprachsynthese |
E-Learning | Sprachsynthese |
Für benötigte Sprachen existiert noch kein Sprachsynthesemodell | Klassische Sprecher:innenaufnahme |
Synthetische Stimmen haben zudem eine Reihe von Eigenheiten. Diese sollten ebenfalls bei der Entscheidungsfindung für oder gegen Sprachsynthese bedacht werden:
- Nicht alle synthetischen Stimmen sind gleichwertig in ihrer phonetischen Qualität
- Es stehen nicht für alle Sprachen gleich viel unterschiedliche synthetische Stimmen zur Auswahl – bei manchen Dutzende, bei anderen derzeit nur ein bis zwei
- Es gibt Einschränkungen bei der Anpassbarkeit der Aussprache bestimmter Wörter (speziell bei nicht-lexikalischen Firmen- und Produktnamen, sowie fremdsprachigen Ausdrücken)
- Es gibt Einschränkungen bei der Anpassbarkeit von Betonung, Sprachmelodie, und Timing
- Verschiedene Einschränkungen können vorab nicht eingeschätzt werden, sondern zeigen sich erst im Laufe der Produktion der Sprachsynthese-Dateien
Fazit
Die Weiterentwicklung der Sprachsynthese eröffnet interessante, kosteneffiziente Möglichkeiten, besonders seit ein deutlich besseres Finetuning durch SSML (Speech Synthesis Markup Language) möglich ist.
Die Sprachsynthese-Tools selbst sind weitestgehend online verfügbar. Für deren produktive Nutzung, speziell bei mehrsprachigem Content, sind jedoch geeignete Prozesse und Praxiserfahrung mit SSML & Co. notwendig.
Ihr nächstes Video zur Sicherheitsunterweisung der Besucher:innen Ihres Firmengeländes soll von
Darth Vader gesprochen werden? Dann melden Sie sich gern bei uns.