Gesprochen von Darth Vader

Chancen und Grenzen der Sprachsynthese

Digitale Medien verändern die Form der Wissensvermittlung, und zwar von reinem Text hin zu Bildern und gesprochener Sprache. Denn in vielen Bereichen ist gesprochene Sprache besser geeignet, Inhalte zu kommunizieren als reiner Text.

Klingt gut. Kann’s auch was?

Besonders bei Videos und E-Learnings ist gesprochene Sprache in Form von Synchronisation (ggf. lippensynchron) oder Voice-Over (Off-Stimme) häufig die bessere Wahl. Bislang wurden diese Vertonungsarten aufwändig im Tonstudio mit Sprecher:in, Toningenieur:in und teilweise sogar Regisseur:in produziert.

Dem gegenüber steht die Sprachsynthese, also die softwarebasierte Erzeugung einer synthetischen und dabei möglichst menschlich klingenden Sprechstimme. Diese Technologie (auch Text-to-Speech, TTS) hat sich in den letzten Jahren stark weiterentwickelt – nicht zuletzt durch die zunehmende Verfügbarkeit von Deep Learning beziehungsweise künstlicher Intelligenz (KI).

Die Entwicklung der Sprachsynthese:

Ansatz Eigenschaften
Phonembasierte Sprachsynthese Häufig mechanischer oder künstlicher Klang,
geringere Stimmenauswahl
Sprachsynthese basierend auf „KI“ (Machine Learning) Weitestgehend natürlich klingende Stimmen,
wenig Justiermöglichkeiten
Sprachsynthese basierend auf „KI“ mit SSML-Fähigkeit Auszeichnungssprache SSML ermöglicht
deutlich besseres Finetuning vieler Aspekte

Während menschliche Sprecher:innenaufnahmen nach wie vor der Goldstandard beispielsweise bei hochwertigen Marketingvideos sind, bietet Sprachsynthese – mittlerweile auch basierend auf trainierten KI-Sprachmodellen – für etliche Bereiche eine ernstzunehmende Alternative.

Weniger Kosten. Und sonst?

Ein Vorteil der Sprachsynthese sind die reduzierten Kosten und Produktionszeiten. Damit wird die Nutzung von gesprochener Sprache auch dort möglich, wo das bisher nicht denkbar war. Untertitel müssen nicht mehr als Notlösung anstelle einer Sprecher:innenstimme herhalten. Und: Sprachsynthese macht Dinge möglich, die im Aufnahmestudio so nicht machbar sind. Sie können zum Beispiel ein Sprachmodell mit einer beliebigen Stimme erstellen und Ihre E-Learnings damit vertonen.

Die Vor- und Nachteile von Sprecher:innenaufnahmen versus Sprachsynthese:

Aspekt Sprecher:innenaufnahme Sprachsynthese
Optimale Möglichkeiten, die Wirkung der Stimme im Detail festzulegen (Aussprache, Betonung, Satzmelodie ec.) ja nein
Kurzfristige Produktion meist nein ja
Überschaubare Kosten (speziell bei mehreren Sprachen) nein ja
Einfache, kostengünstige Nachaufnahmen nein ja
Stimme meist ständig verfügbar nein ja
Einfache kostengünstige Lizenzmodelle nein ja
Erstellung eigener Sprachsynthesemodelle mit beliebiger Stimme (z. B. der von Darth Vader) nein ja

Es ist wie immer: Es kommt drauf an.

Je nach Verwendungszweck, Zielgruppe und Qualitätsanforderungen hat die Sprachsynthese auch Grenzen. In bestimmten Anwendungsszenarien wird der gewünschte kommunikative Zweck nach wie vor nur mit einer Aufnahme von professionellen Sprecher:innen erreicht. Vor allem bei Image- und Produktvideos, bei denen die Art des Sprechens und die damit verbundene Emotionalität in der Stimme einen essentiellen Bestandteil der Marketingbotschaft darstellt.

Die Entscheidung für oder gegen Sprachsynthese sollte nach genauer Betrachtung der zu vertonenden Inhalte und der benötigten Sprachen und Sprachvarietäten erfolgen.

Hier einige Entscheidungskriterien:

Art des Inhalts bzw. Rahmenbedingungen Umsetzung möglich durch
Hochglanz-Imagevideo mit Stimme, die maßgeblich zur Atmosphäre und Emotionalität im Video beiträgt Klassische Sprecher:innenaufnahme
Technisches Erklärvideo Sprachsynthese
Produktvideo Klassische Sprecher:innenaufnahme oder Sprachsynthese
E-Learning Sprachsynthese
Für benötigte Sprachen existiert noch kein Sprachsynthesemodell Klassische Sprecher:innenaufnahme

Synthetische Stimmen haben zudem eine Reihe von Eigenheiten. Diese sollten ebenfalls bei der Entscheidungsfindung für oder gegen Sprachsynthese bedacht werden:

  • Nicht alle synthetischen Stimmen sind gleichwertig in ihrer phonetischen Qualität
  • Es stehen nicht für alle Sprachen gleich viel unterschiedliche synthetische Stimmen zur Auswahl – bei manchen Dutzende, bei anderen derzeit nur ein bis zwei
  • Es gibt Einschränkungen bei der Anpassbarkeit der Aussprache bestimmter Wörter (speziell bei nicht-lexikalischen Firmen- und Produktnamen, sowie fremdsprachigen Ausdrücken)
  • Es gibt Einschränkungen bei der Anpassbarkeit von Betonung, Sprachmelodie, und Timing
  • Verschiedene Einschränkungen können vorab nicht eingeschätzt werden, sondern zeigen sich erst im Laufe der Produktion der Sprachsynthese-Dateien

Fazit

Die Weiterentwicklung der Sprachsynthese eröffnet interessante, kosteneffiziente Möglichkeiten, besonders seit ein deutlich besseres Finetuning durch SSML (Speech Synthesis Markup Language) möglich ist.

Die Sprachsynthese-Tools selbst sind weitestgehend online verfügbar. Für deren produktive Nutzung, speziell bei mehrsprachigem Content, sind jedoch geeignete Prozesse und Praxiserfahrung mit SSML & Co. notwendig.

Ihr nächstes Video zur Sicherheitsunterweisung der Besucher:innen Ihres Firmengeländes soll von
Darth Vader gesprochen werden? Dann melden Sie sich gern bei uns.