Human Data is King
Warum Medienunternehmen auf wahren Goldschätzen sitzen
von Chris Schinke, 22.01.2024
Von Menschen erzeugter Content spielt eine wachsende Rolle bei der Verbesserung und Weiterentwicklung von KI-basierten Large Language Models (LLMs). Um ihre Modelle stetig voranzubringen, benötigen Anbieter wie Open AI, Google und Microsoft vor allem zweierlei: eine enorme Rechenleistung und eine möglichst große, zuverlässige Datenquelle. Für das Training ihrer Sprachmodelle greifen Entwickler:innen dabei auf verschiedene Quellen zu.
Es handelt sich in der Regel um frei zugängliche Internettexte auf Websites, Foren und Blogs, aber auch auf Nachrichtenseiten. Zu typischen, zuverlässigen Quellen zählen auch Seiten wie Wikipedia, Fachartikel, Bücher und wissenschaftliche Publikationen. Besonderes Augenmerk werfen Entwickler:innen von generativer KI auf Social-Media-Plattformen sowie die Webauftritte von Medienhäusern. Die dort von Menschen kreierten (multimedialen) Inhalte erweisen sich im KI-Zeitalter als potenzielle Goldgrube.
Die Inhalte von Medienunternehmen sind für KI-Unternehmen deshalb so interessant, weil sie eine enorme Bandbreite von Sprachstilen und Ausdrucksweisen aufweisen, die ihrem KI-Modell dabei helfen, sie mit einer natürlichen Sprachkompetenz auszustatten. Medieninhalte werden zudem stetig aktualisiert und bereiten aktuelle Ereignisse auf. Dies hilft LLMs auf dem neuesten Stand zu bleiben und relevante Informationen zu verarbeiten. Um LLMs ein Verständnis von verschiedenen Perspektiven und der Bedeutung von Meinungen zu geben, erweist sich das Training anhand von Medieninhalten als hilfreich.
Rechtliche und wirtschaftliche Konsequenzen
Das Heranziehen von Internetquellen als Trainingsdaten für künstliche Intelligenz hat rechtliche wie wirtschaftliche Konsequenzen. Beim Thema Transparenz in Bezug auf die Quellen ihrer Trainingsdaten zeigen sich Unternehmen derzeit nur unzureichend auskunftsbereit. Mit einer zunehmenden politisch-behördlichen Regulierung dieser Bereiche ist in Zukunft zu rechnen. Der von Google und seinem KI-Chatbot Bard zugrundeliegende Algorithmus etwa wurde – dies gab das Unternehmen zu – teilweise anhand von Reddit-Daten trainiert. Auch OpenAI zitiert Reddit und die Beiträge der rund 57 Millionen täglichen Nutzer:innen der Social-Plattform als eine der bedeutenden Datenquellen seines Chatbots ChatGPT.
Tech-Konzerne machen Medienunternehmen Angebote
Das sogenannte „crawling“ und „scraping“ von Webinhalten, für das Suchmaschinenbetreiber wie Google und Microsoft bekannt sind, wurde von Unternehmen wie Reddit und von Medienunternehmen in der Vergangenheit kritisch betrachtet. Jedoch profitierten sie auch davon, da Inhalte bei den Suchergebnissen im Ranking weit oben erschienen. Im Zeitalter von KI stellt sich die Frage nach der Monetarisierung von menschlich erzeugtem Content jedoch völlig neu. Für die Tech-Industrie sind KI-Systeme der Wachstumszweig schlechthin. Unternehmen wie Reddit wollen von KI-Entwickler:innen für ihren Datenschatz bezahlt werden und arbeiten an entsprechenden Abkommen mit den Herstellern.
Auf den Zug springen zunehmend auch Medienunternehmen auf. Sie lassen sich ihre Schnittstellen zum Auslesen von Beiträgen zunehmend vergolden. So schloss etwa die Nachrichten- und Presseagentur Associated Press (AP) einen Deal mit dem ChatGPT-Hersteller OpenAI über die Lizensierung der Inhalte ihres News-Archivs. In einer gemeinsamen Erklärung hielten die beiden Unternehmen fest: „Die Vereinbarung sieht vor, dass OpenAI einen Teil des Textarchivs von AP lizensiert, während AP die Technologie- und Produktexpertise von OpenAI nutzen wird“. Auf eine Partnerschaft mit OpenAI setzt auch das deutsche Medienhaus Axel Springer. OpenAI darf demnach auf Inhalte von Axel Springer zugreifen und sie nutzen. Laut einem Bericht der Financial Times bekommt der Verlag dafür mehrere zehn Millionen Euro pro Jahr. Der Deal ist dem Vernehmen nach nicht exklusiv, was bedeutet, dass Axel Springer seine Inhalte auch anderen KI-Anbietern zur Verfügung stellen kann.
Klage aufgrund von Urheberrechtsverletzungen
Einen ganz anderen Weg im Umgang mit KI-Unternehmen schlägt die New York Times ein. Anstatt wie andere Medienhäuser einen Deal mit KI-Entwickler:innen zu schließen, verklagt die New York Times OpenAI und Microsoft aufgrund von Urheberrechtsverletzungen. Die Times wirft den Tech-Unternehmen die nicht genehmigte Nutzung urheberrechtlich geschützter Inhalte vor. OpenAI und Microsoft hätten Times-Inhalte als Grundlage für Trainingsdaten verwendet. Die Klage, eingereicht beim Federal District Court in Manhattan, gilt vielen in der Medienbranche als potenziell wegweisend. Ein Urteil in der Auseinandersetzung der Unternehmen dürfte als Präzedenzfall Bedeutung erlangen.
Auch der Technologieriese Apple lotet gegenüber Publishern potenzielle Vereinbarungen hinsichtlich KI aus. Laut der Nachrichtenagentur Reuters stellt der iPhone-Hersteller mehreren Medienkonzernen ein mehrjähriges Abkommen von bis zu 50 Millionen Dollar in Aussicht – darunter Condé Nast (u.a. die publizistische Heimat des New Yorker und der Vogue), NBC News, IAC (People, The Daily Beast, Better Homes and Gardens).
Die potenziellen Übereinkünfte und Auseinandersetzungen dieser Firmen deuten an, auf welchem Goldschatz auch bayerische Medienunternehmen mit ihren Terabyte an Archivdaten sitzen. Verlässliche Inhalte sind ein knappes Gut. Die Relevanz dieser Daten und Inhalte in Bezug auf die Entwicklung verbesserter KI dürfte in Zukunft weiter zunehmen.
Quellen & nützliche Links
- Axel Springer: Axel Springer und OpenAI: Neue Partnerschaft stärkt Nutzen von KI im Journalismus
- Business of Apps: Reddit Revenue and Usage Statistics (2024)
- Reuters: Apple explores AI deals with news publishers - New York Times
- The Associated Press: ChatGPT-maker Open AI signs deal with AP to license news stories
- The Information: OpenAI Offers Publishers as Little as $1 Million a Year
- The New York Times: Reddit Wants to Get Paid for Helping to Teach Big A.I. Systems