Newsletter erhalten

Synthetic Voice Content

Von Benedikt Frank

Audioinhalte sind stark gefragt. Doch die Produktion beansprucht viel Zeit und kostet Geld. Eine Zeitungsredaktion muss sich daher unter Umständen fragen: Fehlen die Ressourcen für den Podcast hinterher bei der Reportage? Sprachsynthese vereinfacht die Entscheidung für Audio. Durch diese Technik wird aus jedem Text automatisch ein Hörstück. Profitieren können von den neuen Entwicklungen nicht nur Nachrichtenredaktionen, sondern auch Buchverlage, Game Developer und Anwendungen von Sprachassistenten.

Computergenerierte Sprache gibt es bereits seit Jahrzehnten. Doch bisher waren die knarzenden Roboterstimmen relativ einfach von einer natürlichen Stimme zu unterscheiden. Man denke etwa an den berühmten Sprachcomputer des Physikers Stephen Hawking. Dieser klang elektronisch und betonte Silben und Worte deutlich anders als menschliche Sprecher:innen. Auch moderne Sprachassistenten wie Amazons Alexa, Apples Siri und Googles Assistant sind noch nicht perfekt. Das zeigt sich zum Beispiel, wenn sie komplizierte Worte oder Sätze vortragen sollen. Die nächste Generation des Synthetic Voice Contents aber lässt sich kaum noch von menschlichen Stimmen unterscheiden. Sie hat somit das Potenzial, die Produktion von Audioinhalten grundlegend zu verändern.

Glaubwürdige Stimmen dank künstlicher Intelligenz

Viele Medienschaffende hadern damit, selbst in die Audioproduktion einzusteigen. Ein Grund dafür sind hohe Produktionskosten. Synthetic Voice senkt diese erheblich und erlaubt so auch denjenigen Zugang zum Audiomarkt, die sich diesen bisher nicht leisten konnten oder wollten.

Hinter den jüngsten Durchbrüchen in Sachen Qualität bei der Sprachsynthese stecken Machine Learning und Neural Networks, also KI-Technologie. Sie macht Text-to-Speech-Software zu einem glaubwürdigen Ersatz für menschliche Sprecher:innen. Das funktioniert, indem die Software zunächst einige Stimmproben von echten Menschen aufnimmt, meist von professionellen Synchronsprecher:innen. Aus diesen berechnet sie, wie diese Stimme andere Sätze aussprechen würde. 

Nötig sind drei Elemente: Die Software muss erkennen, wie Sprecher:innen verschiedene Laute, auch Phoneme genannt, in bestimmten Situationen artikulieren. Und sie muss wissen, wie sich ein geschriebener Text in Lautschrift übersetzen lässt. Ein Waveform Generator berechnet auf dieser Grundlage schließlich eine Audiodatei. Da menschliche Sprache höchst komplex ist, gab es bei der Kombination dieser Prinzipien bisher immer viele Bruchstellen, die die Illusion realer Sprecher:innen zerstörten. Verschiedene KI-Ansätze trainieren nun Software, mit diesen Problemen besser umzugehen und den Klang natürlicher zu gestalten.

Typischer Aufbau von Text-to-Speech-Software. | Quelle: Wikipedia.

Software-Entwickler:innen bieten bereits einfache Anwendungen an, die Medienmacher:innen ohne viel technisches Vorwissen nutzen können: Auf der einen Seite wird Software mit Text gefüttert, auf der anderen kommt der Audioinhalt raus. 

Der Wettbewerb kommt ins Rollen

Verschiedene Anbieter liefern sich in diesem Feld derzeit einen Wettbewerb. Microsofts Speech Studio enthält etwa Custom Neural Voice, einen Service mit dem Firmen ihre eigenen Marken-Stimmen erstellen können. Diese lassen sich etwa für Chatbots einsetzen. Resemble.ai ist eine API mit ähnlicher Funktionalität. Replica ermöglicht Game Developern per Plugin AI Voice Actors zu generieren. Stimmung und Betonung lassen sich dabei mit wenigen Klicks anpassen. Im Video-Editing-Tool Descript kann man Versprecher ausbessern, indem man das Skript zum Video ändert, oder das Voice-over gänzlich künstlichen Sprecher:innen überlassen. 

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Mit ein paar Klicks können Game Developer mit Replica ihre eigenen Sprecher:innen erstellen und anpassen. | Quelle: Replica

Durch den Einsatz von Text-to-Speech-Lösungen ergeben sich eine ganze Reihe an Vorteilen und Möglichkeiten für Medien. Texte können schneller produziert und aktualisiert werden als Tonaufnahmen. Im Grunde könnte eine geschriebene Agenturmeldung im gleichen Moment, in dem sie in der Redaktion eingeht, schon als Audioinhalt ausgespielt werden. Computer können einfacher mit Text als mit Sprache arbeiten, was etwa individualisierbare Audionachrichten ermöglicht. Heute funktioniert das schon im Kleinen, wenn man Siri und Co nach dem Wetter fragt. Im Zusammenspiel mit Object-based Media wären fließende Wechsel zwischen Text und Audio möglich.

Neue Märkte für Verlage und Sprecher:innen

Wenn sich jeder Text schnell und günstig in Gesprochenes übersetzen lässt, könnte man in Zukunft also nicht nur Radio und Podcasts, sondern auch Zeitung oder Blogs hören. Klassische Textmedien werden so barrierefrei und können sich neue Zielgruppen erschließen, etwa Autofahrer:innen und Menschen, die bei der Arbeit nicht die Möglichkeit haben, zu lesen. Das US-Start-up Audiblogs stellt schon jetzt ein Browser-Plugin zur Verfügung, mit dem sich jeder Web-Artikel in einen Podcast verwandeln lässt. Fünf Stunden Ton lässt sich die Firma derzeit mit rund fünf Dollar bezahlen. Es ist anzunehmen, dass Medien hier gerne mitverdienen möchten. Das Start-up Ourdio macht Buchverlagen ein solches Angebot. Es will Bücher vollautomatisch in Hörbücher umwandeln, die dann auch gleich auf verschiedenen Plattformen veröffentlicht werden. Lohnen könnte sich das insbesondere für kleinere Verlage und Bücher, die noch nicht mit einem Bestseller-Status bewiesen haben, dass sich ihre Vertonung finanziell rechnet.

Doch auch für professionelle Sprecher:innen eröffnen sich über Sprachsynthese neue Geschäftsfelder. Die Sorge, dass die Technologie in absehbarer Zeit Moderator:innen und Sprecher:innen ersetzt, dürfte unbegründet sein. Besonders hochwertige Audioproduktionen werden auf die Emotionalität, Spontaneität und Dynamik bei der Arbeit mit realen Menschen nicht verzichten. 

Insbesondere für prägnante und populäre Stimmen liefert Synthetic Voice eine neue Einkommensmöglichkeit: Sprecher:innen können ihre Stimme lizenzieren. Das möchte etwa das Unternehmen Veritone mit MARVEL.ai realisieren. Prominente sollen über das System ihre Stimme klonen und vermarkten können. Allerdings geschieht die Umsetzung mit offizieller Erlaubnis der nun digital geklonten Voice Actors und ist mit unsichtbaren Wasserzeichen versehen, um Mensch und Roboter hinterher noch unterscheiden zu können. Das ist nicht nur für die Werbebranche attraktiv. Vielleicht wählen Nutzer:innen so auch bald aus, von wem sie sich Artikel vorlesen lassen. Hört man heute mal Emma Stone zu, oder doch lieber Anthony Hopkins?

Bedeutung für die Medienbranche in Bayern

Das Thema Synthetic Voice Content beschäftigt große Medienhäuser. So entwickelte etwa die BBC gemeinsam mit Microsoft im Project Songbird eine KI-Stimme, die ausgesuchte Website-Texte vorliest. In Deutschland nutzt Axel Springer sein hauseigenes Tool aravoices, um Texte der WELT mit Marken-Stimmen zu vertonen. Der WDR Innovation Hub legte 2021 einen Report über synthetische Medien allgemein vor und erörtert deren Potential für die Medienbranche. 

Nachdem Synthetic-Voice-Werkzeuge immer einfacher und besser werden, ist jetzt die Zeit für Medienschaffende gekommen, über deren Einsatzmöglichkeiten nachzudenken. Jede bayerische Lokalzeitung, jeder Buchverlag und jeder TV- und Radiosender könnte über Stimmsynthese neue Zielgruppen erschließen, Produktionsprozesse optimieren oder neue Services kreieren. Mit Content Creation Intelligence entwickelt etwa das Berliner Unternehmen Konsole Labs eine Lösung speziell für kleine und mittelgroße Medienhäuser. Und auch Medien, die bereits seit längerem auf Text-to-Speech-Tools der letzten Generation setzen, können auf die neue Generation von natürlich klingender, KI-gestützter Sprachsynthese upgraden.

Teilweise wird Text-to-Speech-Technologie in Bayern bereits produktiv genutzt. So setzt etwa der FC Bayern seit 2019 auf die Software ReadSpeaker, um die Zugänglichkeit zu seiner Website zu verbessern. Auch die Plattform für digitale Medien im Unterricht des Bayerischen Kultusministeriums mebis setzt auf ReadSpeaker. Der Bayerische Rundfunk bietet mit BR Verkehr ein Radioprogramm über DAB+ an, das 24 Stunden täglich Verkehrsmeldungen vorliest. Diese fließen von Polizei, ADAC und privaten Staumeldern ein. Die Redaktion bereitet die Texte auf, dann werden sie vom Voice Reader Server der Firma Linguatec automatisch als Sprache ausgegeben.Das Unternehmen mit Sitz in München hat sich auf Sprachsoftware spezialisiert. Startups arbeiten zudem an neuen Lösungen. Das unter anderem vom Media Lab Bayern unterstützte junge Unternehmen Television.AI etwa entwickelt einen KI-Videoeditor, der auf Grundlage von Rohmaterial mit einer synthetischen Sprecherstimme fürs Voice Over generiert.

Zudem ist Synthetic Voice Gegenstand der bayerischen Forschung. Mit Sprachsynthese beschäftigt sich etwa das Institut für Phonetik und Sprachverarbeitung der Ludwig-Maximilians-Universität München. Das Fraunhofer-Institut IIS Erlangen arbeitet im Projekt Speaker an einer Sprachassistenz-Plattform „made in Germany”, die ebenfalls Sprachsynthese beherrschen soll. Auch im gemeinsamen AudioLabs vom Fraunhofer IIS und der Friedrich-Alexander-Universität Erlangen-Nürnberg beschäftigt man sich mit Text-to-speech. Das Institut für Informationssysteme der Hochschule Hof forscht zur Akzeptanz von künstlichen Stimmen und entwickelt eigene Modelle.

Warum es sich lohnt, in Audioproduktion zu investieren

Für traditionelle Textmedien könnte es sich lohnen, in die Audioproduktion zu investieren. Denn die Nutzung von digitalen Audioinhalten steigt seit Jahren. Laut dem aktuellen Online-Audio-Monitor nutzen in Deutschland 45,3 Millionen Menschen oder 64 Prozent der Bevölkerung ab 14 Jahren mindestens einmal monatlich Online-Audio-Angebote – ein Plus von fünf Prozent. Die größten Zuwächse gab es zuletzt bei Podcasts und Hörbüchern, wohl auch durch die geänderte Mediennutzung in der Pandemie bedingt. 

Die Nutzung von Online-Audio-Angeboten steigt insgesamt beständig, zuletzt am stärksten bei Podcasts. | Quelle: Online-Audio-Monitor

Quellen & nützliche Links:

Abonniere jetzt unseren Newsletter
Bleibe auf dem Laufenden zu den Events und Projekten des MedienNetzwerk Bayern!