Videolokalisierung wie’s Brezelbacken: Diese Punkte machen es einfacher und besser.

Global agierende Unternehmen arbeiten zunehmend mit Videoinhalten.^* Diese müssen in eine Vielzahl an Sprachen lokalisiert werden. Damit die Lokalisierung reibungslos läuft, möchten wir einige Erfahrungen mit Ihnen teilen:

Die Lokalisierung im Blick – bereits bei der Erstellung der Videos

Rohdaten im Standardlieferumfang

Was bereits bei der Konzeption bedacht werden sollte: Videoinhalte sind datenintensiv. Selbst kurze, einminütige Filme können Gigabyte-Größe haben. Verschickt werden die Videos zwar in geschlossenen Formaten, wie mp4-Dateien, doch für Überarbeitungen (die auch bei einer Übersetzung anfallen) werden Rohdaten benötigt. Soll das Video später einmal in anderen Märkten zum Einsatz kommen, sollten Sie sich daher bereits bei der Erstellung die Rechte auf die Rohdaten sichern und für einen schnellen und unkomplizierten Zugriff auf die Daten sorgen. Je besser alle einzelnen Bestandteile des Videos zugänglich und bearbeitbar sind, desto schneller und günstiger wird die Lokalisierung.

Getrennte Audiospuren anlegen

Hintergrundmusik, Soundeffekte und gesprochener Text sollten in separaten Tonspuren angelegt werden. Dies ermöglicht es, das Gesprochene bei der Lokalisierung ohne Beeinträchtigung der anderen Audioelemente zu entfernen oder durch übersetzte Voice-Overs zu ersetzen.

Vorsicht bei Plugins von Drittanbietern

Effekte und Presets von Drittanbietern sollten generell nur sparsam verwendet werden. Verwendete Plugins sollten bei Projektlieferung in einer vom Hersteller aktuell noch unterstützten Version erhältlich sein. Falls aus Lizenzgründen bestimmte Elemente des Videos vom Ersteller nicht an Sie mitgeliefert werden können, muss darauf mit genauer Bezeichnung und Herstellerangabe verwiesen werden, damit diese bei Bedarf nachträglich durch Sie lizenziert werden können. Nicht benötigte Effekte sollten in den an Sie ausgelieferten Daten generell nicht enthalten sein.

Lizenzen & Rechte sichern

Bereits bei der Projektplanung sollte sichergestellt werden, dass alle erforderlichen Rechte (Bild, Sprecher, Musik, Effekte) erworben werden, um später teure Buyouts zu vermeiden. Idealerweise sollte grundsätzlich lizenzfreie Musik verwendet werden, um Lizenzprobleme bei der internationalen Nutzung auszuschließen.

Strategien für die Lokalisierung der Videobestandteile

Sind die Punkte zur Video-Erstellung geklärt, geht es an die Planung des optimalen Workflows für die Lokalisierung – und dabei um die optimale Handhabung von gesprochener Sprache, On-Screen-Text, Untertiteln usw.

Wird im Video gesprochen, sind die sprechenden Personen entweder sichtbar (Originalton) oder nicht sichtbar (im Off). Meistens sogar im Wechsel. Gibt es zusätzlich eine/n Sprecher:in, entsteht eine weitere Sprachebene. Die Sprachinhalte können nun durch Nachvertonung in den gewünschten Fremdsprachen abgebildet werden: entweder lippensynchron (zum Beispiel bei Interviews) oder als Voiceover, indem eine Stimme über das dann im Hintergrund weiter hörbare Original gelegt wird.

Auch Sprachsynthese kann eine kostengünstige und effiziente Alternative sein. Ob das zutrifft, muss im Einzelfall entschieden werden, da Sprachsynthese die echten Sprecheraufnahmen noch nicht in allen Dimensionen gleichwertig ersetzen kann. Aber widmen wir uns zunächst den Untertiteln.

Untertitel und Nachvertonen: Viel Luft, viel Platz und Skripte

Untertitel benötigen Platz. Dieser sollte von Anfang an einplant werden, damit das Bild möglichst wenig verdeckt wird. Im Bereich des unteren Bildrandes sollten keine für die Aussage wesentlichen Elemente platziert werden, die bei einer späteren Untertitelung verdeckt würden. Die Originaltexte sollten dabei so viel „Luft“ wie möglich haben. Ausgehend vom englischen Original kann die Übersetzung erfahrungsgemäß bis zu 30 % länger werden. Viele Sprachen brauchen für die gleiche Aussage viel mehr Silben und damit auch mehr Platz als das Englische. Das Gleiche gilt für Texteinblendungen. On-Screen-Texte sollten mit viel Freiraum platziert werden. Auch sollte genügend Bildzeit eingeplant werden, sonst reicht die Zeit zum Lesen nicht.

Luft und Zeit ist auch fürs Nachvertonen wertvoll: Wenn bereits bei der Produktion darauf geachtet wird, dass die Sprecher nicht zu schnell sprechen und Sprechpausen einhalten, ist das Ergebnis der Lokalisierung viel besser.

Ein weiteres Muss für eine effiziente Lokalisierung: Lassen Sie sich die Skripte der gesprochenen Texte geben, einschließlich der Bestätigung, dass diese dem Stand der Texte der finalen Videoversion entsprechen. (Häufig werden während der Studioaufnahmen noch Textänderungen vorgenommen.) Die Nutzung der Skripte spart Zeit und Kosten im Vergleich zur Neuerstellung durch manuelle Transkription oder Auto-Transkription.

Und noch ein Hinweis: Zu viel Text, ob gesprochen oder im Bild, lenkt von den Bildaussagen ab. Videoproduktion ist teuer – investieren Sie lieber in aussagekräftige Bilder und sparsamen Text, damit auch die lokalisierten Versionen überzeugen.

Videos sind wie eine Schachtel Pralinen. Man weiß nie, was man kriegt.

Videos sollten vor der Lokalisierung genau analysiert und folgende Punkte geklärt werden:

Welche Zielsetzung und welche Zielgruppe hat das Video?

Bei einer firmeninternen Mitarbeiterschulung werden andere Rahmenbedingungen gelten als für ein aufwändiges Marketingvideo, das potenzielle Kund:innen in ihrer Muttersprache ansprechen soll. Darum sollte die Art der Lokalisierung so gewählt werden, dass sie bestmöglich zur Zielsetzung passt.

Welche Videobestandteile müssen lokalisiert werden?

Für die einzelnen Bestandteile werden entsprechende Lokalisierungsstrategien geprüft. Zum Beispiel, ob es genügend Platz für länger laufende Untertitel oder Texteinblendungen gibt.

Macht das Videokonzept eine Lokalisierung überhaupt möglich?

Nehmen wir ein Erklärvideo, in dem die Bedienung einer Software demonstriert wird. Ist im Originalvideo die Sprache der Software-Oberfläche Englisch und die Sprechstimme auch: kein Problem. Wenn das Ganze ins Deutsche übersetzt werden soll, stellt sich die Herausforderung, eine englischsprachige Software-Oberfläche auf Deutsch zu erklären. Das führt sicher zu Verwirrungen. Die Verwendung des englischsprachigen Videos mag daher in diesem Fall zielführender sein als die Erstellung einer teilweise übersetzen Version.

Sprachaufnahme, Sprachsynthese oder Untertitel? Eine Kosten-Nutzen-Abwägung

Klar, Untertitel kosten weniger als Sprachaufnahmen. Aber erfüllen sie auch den gewünschten kommunikativen Zweck?

Wenn Untertitel und Texteinblendungen das Bild überfrachten, wird der Zuschauer überfordert. Gesprochene Sprache in Kombination mit On-Screen-Texten hingegen funktioniert kommunikativ deutlich besser. Und menschliche Stimmen bieten darüber hinaus emotionale Mehrwerte.

Deshalb stellt sich immer auch die Frage, wann eine Synchronisierung unverzichtbar ist. Und ob alternativ der Einsatz von Sprachsynthese eine gute Option sein könnte.

Sprachsynthese: Eine ernstzunehmende Alternative

Viele mit KI erzeugte Stimmen klingen inzwischen bereits sehr natürlich und professionell. Sie eignen sich besonders, wenn es bei den Sprachaufnahmen um Inhalte in sachlichen, neutralen, informativen Szenarien geht.

Kommt es hingegen auf Emotionalität, Aussprache, Betonung und Satzmelodie an, dann kann Sprachsynthese den echten Menschen noch nicht gleichwertig ersetzen. Das ist beispielsweise in werblichen Inhalten wie Produkt-, Brand- oder Image-Videos der Fall.

Deshalb profitieren aktuell auch primär Fachinhalte wie multilinguale E-Learnings und technische Erklärvideos von den kürzeren Produktionszeiten der Sprachsynthese, die auch unkomplizierte und kostengünstige Nachaufnahmen bei Korrekturen oder Aktualisierungen möglich machen.

Die Auszeichnungssprache SSML (Speech Synthesis Markup Language) bietet einen besonderen Vorteil: Das Finetuning einzelner Aspekte in Kombination mit trainierten KI-Sprachmodellen. Doch es gibt gewisse Grenzen: In vielen Sprachen sind noch keine KI-Sprachmodelle vorhanden oder es stehen nur wenige Stimmen zur Auswahl. Auch kann die Aussprache bestimmter Wörter und Begriffe nicht in jeder Sprache angepasst werden, wenn die gewünschte Aussprache zu speziell oder firmenspezifisch ist.

Die Vorteile von Sprachsynthese

Kürzere Produktionszeiten
Geringere Kosten
Einfache und kostengünstige Nachaufnahmen speziell bei späteren Aktualisierungen

Die Nachteile von Sprachsynthese

Qualität noch nicht gleichwertig (z. B. Emotionalität)
Begrenzte Möglichkeit der Anpassung von Aussprache, Betonung, Timing
Technische Einschränkungen zeigen sich oft erst im Projektverlauf

Unser Fazit

Achten Sie schon bei Konzeption und Erstellung auf eine mögliche spätere Lokalisierung der Videos. Sichern Sie sich den Zugang zu den Rohdaten und stellen Sie diese ihrem Sprachdienstleister zur Verfügung. Das senkt die Bearbeitungszeit und Kosten. Teilen Sie auch Details zum späteren Verwendungszweck mit.

Die gründliche Abwägung, welches Lokalisierungskonzept am besten geeignet ist, ist entscheidend für eine optimale Wirksamkeit der Videos in den gewünschten Zielmärkten und Nutzergruppen.

Ob Sprachsynthese die bessere Option ist, ist abhängig von den Inhalten, den benötigten Sprachen und den Sprachvarietäten.

Am wichtigsten jedoch ist: Vertrauen Sie auf die Kraft der Bilder. Viel Text lenkt vom Gezeigten ab und kann die Zuschauer:innen überfordern. Verwenden Sie daher so wenig Text wie möglich. Das macht die Videos besser und die Lokalisierung in andere Sprachen einfacher.

* Statista prognostiziert bis 2030 für Deutschland ein Wachstum der Umsätze im Videomarketing-Markt von 3,17 % auf 1,79 Mrd. €. https://de.statista.com/outlook/amo/werbung/tv-video-werbung/digitale-videowerbung/deutschland?currency=EUR