Lukas Schöne beim Audiopanel auf den Medientagen München 2022

Die Zukunft der Medien ist synthetisch – und sie ist jetzt

von Lisa Pandtle

Personalisierung, Wiederbelebung oder automatisches Antworten: Synthetische Sprachtechnologien bieten neben großen Vorteilen viel Diskussionspotenzial. Wie sieht es mit ethischen und moralischen Fragestellungen aus, wenn Synthetisierung für alle Menschen zugänglich wird? Welche Instanz stellt welche Regeln auf? Dass die Zukunft der Medien synthetisch und nicht mehr aufzuhalten ist, daran hat unsere Panel-Diskussion im Rahmen der MEDIENTAGE MÜNCHEN keinen Zweifel gelassen. „Nicht nur Alexa – Sprachtechnologie als strategisches Instrument für Reichweiten- und Produktentwicklung“ wurde von unserem Audio-Experten Lukas Schöne moderiert.

Als „Medien, die durch einen Algorithmus ganz oder teilweise erzeugt werden – insbesondere durch den Einsatz von Künstlicher Intelligenz“, definierte Tatjana Anisimov, Product Innovation Managerin bei RTL Deutschland, synthetische Medien. In einem Kooperationsprojekt mit Microsoft generierte RTL Deutschland den digitalen Stimmabdruck zweier Radiosprecher:innen, um die künstlichen Stimmen als Vorlesefunktion bei n-tv einzusetzen.

Seit zwei Jahrzehnten arbeite Microsoft bereits an Text-to-Speech-Technologien, erklärte Clemens Siebler, Senior Specialist AI and Machine Learning des Software-Unternehmens. Über 400 verschiedene synthetische Stimmen stünden bereits zur Verfügung und in 140 Sprachen könne man sich Inhalte übersetzen lassen. „Maximal einen Tag dauert es mit unserem Tool, bis eingelesene Inhalte soweit verarbeitet sind, dass die Stimme synthetisch für alle weiteren Inhalte verwertbar ist.“

Für die Konferenz-Besucher:innen zog Anisimov folgendes Fazit: Es mache einen enormen Unterschied, wenn Sprecher:innen selbst Content einlesen. „Die Prominenz der Menschen beziehungsweise die Bekanntheit der Stimme spielt dabei keine große Rolle, dafür aber die Qualität. Sie sollte sympathisch sein und gut klingen. Zudem wird die Barrierefreiheit für Menschen mit Seheinschränkung anerkannt – Browserreader sind nicht darauf trainiert, Nachrichten vorzulesen, Sprecher:innen schon.“

Wieso RTL mit synthetischen Stimmen arbeitet, wo das Unternehmen doch professionelle Sprecher:innen beschäftigt? „Durch Synthetisierung können Menschen sich Nachrichten vorlesen lassen, Videos vertonen und News können im Radio problemlos zu Randzeiten verbreitet werden“, erklärte Anisimov. Außerdem könne Menschen, die ihre Stimme verloren haben, wieder eine verliehen werden. „Synthetic Voice hilft bei der Personalisierung von Charakteren, gerade im Gaming-Bereich, und sie lässt Menschen auditiv auferstehen, die bereits gestorben sind“, ergänzte die Product Innovation Managerin von RTL.

In Test-Vorführungen habe meist die Hälfte der Leute nicht erkannt, welche der Aufnahmen synthetisch produziert wurden. Dass das ethische Fragen aufwerfe, sei ihr bewusst. „Die Kennzeichnung macht den Unterschied“, erklärt Anisimov. Ein transparenter Umgang und der verantwortungsvolle Einsatz der Technologie sei unumgänglich.

Microsoft hat deshalb ein Responsible AI Team eingeführt: „Sprecher:innen geben verbale Statements zu ihrer Stimmnutzung ab, Verträge werden geschlossen und bei Missbrauch gibt es ein sogenanntes Abuse Reporting. Künftig können wir sogar Wassermarken auf Audiospuren setzen“, berichtete Siebler.

Rebotnix-CEO Gary Hilgemann sieht in der Synthetisierung großes Potenzial.

Großes Potenzial in der Synthetisierung von Stimmen sieht auch Speaker und Rebotnix-CEO Gary Hilgemann. Das Software-Unternehmen kümmert sich um Entwicklung, Betrieb und Wartung leistungsstarker KI-Software und -Hardware. Auch mithilfe von Rebotnix können User ihre Stimmen synthetisieren. „Unsere Sprecher:innen werden an jedem synthetisch generierten Wort finanziell beteiligt. Ihre Stimmen verdienen bei Nutzung weiterhin Geld, auch wenn der Synthetisierungsprozess abgeschlossen ist“, erklärte Hilgemann. Rebotnix gehe noch einen Schritt weiter und spiele in der Bearbeitung des synthetisierten Contents mit verbalen Befehlen. Diese verstehe die KI und passe den synthetisierten Audio-Content dementsprechend an. „Man sagt einfach, was man möchte. Mehr Pausen, mehr Emotionalität – und es wird umgesetzt. Das ist die Zukunft“, sagte Hilgemann.

Nach Ansicht von Hilgemann ist es am Gesetzgeber zu regeln, wie man mit den KI-Produkten künftig umzugehen hat – unter Einbezug europäischer Werte. „Synthetische Projekte sind ein Marathon, kein Sprint“, ergänzte Anasimov. Hinsichtlich Vergütung, Rechten und Kennzeichnungen sind ihrer Meinung nach noch viele Diskussionen zu führen.

Mehr zum Thema Synthetisierung erfährst du in unserem Netzwerkwissen Synthetic Voice Content.

Unsere weiteren Beiträge zu den MEDIENTAGEN MÜNCHEN 2022 findest du hier: