Die Mischung macht’s: Hugenroth und eine Szene aus »Black Dog«

Kuck mal, wer da spricht

Das Audio Innovation Lab aus Köln will Künstliche Intelligenz in der Filmsynchronisation zur Norm machen

Herr Sporn, Herr Hugenroth, die deutsche Fassung des chinesischen Dramas »Black Dog«ist als erster Kinofilm vollständig mittels Künstlicher Intelligenz synchronisiert worden. Wessen Stimmen höre ich da?

Stefan Sporn: Das können wir nicht sagen. Die Stimmen wurden aus vielen anderen Stimmen zusammengesetzt, die von den Systemprovidern für die KI bereitgestellt werden — nicht rückführbar auf eine konkrete Person. Es gibt beim Synchronisieren zwei Verfahren: Text-to-Speech — du gibst einen Text in den Computer, und der Computer spuckt den Ton aus. Oder Speech-to-Speech — du hast auch eine/n echte/n Sprecher*in, egal, ob Mann oder Frau, also auch für das, was nachher dabei rauskommt. Bei »Black Dog« kam beides zum Einsatz.

Ingo Hugenroth: Wir nutzen diverse KI-Tools, und da werden Stimmen mitgeliefert, mit denen wir arbeiten können. Darüber hinaus haben wir Sprecher*innen, mit denen wir Verträge geschlossen haben, hier im Studio auf­ge­nommen und synthetisiert. Diese Stimmen können wir ebenfalls nutzen.

Sie versprechen Authentizität. Ist die mit Künstlicher Intelligenz überhaupt zu erreichen?

Hugenroth: Ja. Zum Beispiel, wenn wir die Originalstimmen der Schauspieler*innen aus dem Film nehmen, die dann dank KI in einer anderen Sprache sprechen. Brad Pitt spricht Deutsch, aber wir hören tatsächlich seine Stimme. Authentischer geht es nicht.

Haben Sie dafür eigene KI-Tools entwickelt?

Sporn: Wir können keine eigene KI programmieren, dafür bräuchte man Milliarden und trotzdem läufst du immer noch Programmen hinterher, die es schon gibt. Aber wir können besser als andere aus bestehenden Systemen hohe Qualität herausholen.

Wie war die Reaktion der Synchronsprecher*innen auf Ihren Einsatz von KI?

Sporn: Sehr ablehnend. Wir haben einen großen Shitstorm abbekommen. Als der Trailer zu »Black Dog« ins Netz gestellt wurde, ist drei Wochen lang ist nichts passiert, die Leute sagten: »Toller Film!« Wir haben uns dann entschieden, die Synchronisation als Referenz auf unsere Website zu stellen, und sofort ging es rund. Am nächsten Tag kamen nur noch Kommentare, die behaupteten, die Qualität der Synchronisation sei ganz schlimm. Wir haben dadurch auch Aufmerksamkeit bekommen und können uns darüber, ehrlich gesagt, nicht beklagen.

Brad Pitt spricht Deutsch, aber wir hören seine Stimme. Authentischer geht es nichtIngo Hugenroth, Audio Innovation Lab

Was macht Sie zuversichtlich, dass sich KI beim Synchronisieren durchsetzen wird?

Sporn: Die Budgets von Fernsehsendern und auch in der Filmindustrie werden immer knapper. Wer da überleben will, muss vom Drehbuch bis zur Postproduction möglichst effizient arbeiten. Das geht heute nur noch über KI, ansonsten bist du raus. Und der größte Kostenblock in einer klassischen Synchronisation ist der Mensch. Man kann von 20 bis 50 Prozent Kostenersparnis ausgehen. Synchronisieren mit KI geht auch schneller. Wir haben aber noch eine Lernkurve beim Umgang mit den KI-Systemen. Wir sind bereits bei 80 Prozent, da sind aber noch 20 Prozent Lernkurve möglich.

Sie haben auch Ethikstandards festgelegt und auf Ihrer Homepage veröffentlicht.

Sporn: Erstens wollten wir nach außen signalisieren, dass Dinge gibt, die wir nicht machen. Wir würden keine Propaganda machen. Zweitens, wir vergüten für die Nutzung von Stimmen. Klingt selbstverständlich, aber wer in dem Business schon länger dabei ist, weiß, wie schwierig das manch­mal ist. Und da werden ja auch gerne entsprechende schmutzige Geschichten erzählt.

Sie haben das Unternehmen 2024 gemeinsam mit Benjamin K. Höller gegründet. Wohin soll die Reise gehen?

Sporn: Wir wollen wachsen und mit vielen Leuten zusammenarbeiten. Wir haben nichts neu erfunden. Und was da ist, lässt sich auch durch Proteste der KI-Gegner*innen nicht wegdiskutieren. Bestimmte Berufsgruppen, wie etwa Sprecher*innen, werden in Zukunft nicht mehr so stark nachgefragt. Aber der KI-Audioproducer, eine völlig neue Berufsgruppe, die wir hier auch ausbilden, wird gebraucht. Wir stehen am Anfang eines Disruptionsprozesses wie seinerzeit beim Wechsel vom Schwarz-Weiß-Film zum Farbfilm.

audioinnovationlab.com