ChatGPT vor Gericht: GEMA vs. OpenAI – erstes KI-Grundsatzurteil!

Am 11. November wurde ein Urteil gefällt, das juristische und technologische Debatten in Europa noch lange prägen dürfte: Das Landgericht München I entschied, dass OpenAI mit ChatGPT gegen deutsches Urheberrecht verstößt. Die GEMA klagte – und bekam Recht.

Das Urteil hat Gewicht. Nicht nur, weil es europaweit das erste seiner Art ist, sondern weil die auf das Urheberrecht spezialisierte 42. Zivilkammer des Landgerichts München I sich intensiv mit den technischen Grundlagen befasst und alle drei Hauptargumente von OpenAI zurückgewiesen hat.

A. Was ist konkret passiert?

Die GEMA vertritt deutsche Songwriter als sogenannte Verwertungsgesellschaft. Sie stellte fest, dass ChatGPT in der Lage ist, Liedtexte bekannter Werke wortgetreu wiederzugeben. „Atemlos“ von Kristina Bach? ChatGPT gibt den vollständigen Text wieder. „Wie schön, dass du geboren bist“? Ebenfalls abrufbar – wortgetreu.

Insgesamt ging es um neun bekannte deutsche Songs. Die GEMA argumentierte: OpenAI hat diese Texte beim Training verwendet, sie sind im Modell gespeichert, und auf Nachfrage gibt ChatGPT sie vollständig wieder. Ohne Lizenz. Ohne Einwilligung.

OpenAI wehrte sich mit drei zentralen Argumenten, die zunächst plausibel erscheinen mögen – das Gericht aber nicht überzeugten.

B. Argument 1: „Wir speichern doch gar keine Daten“

OpenAIs erste Verteidigungslinie lautete: Das Sprachmodell speichere keine konkreten Trainingsdaten, sondern lerne lediglich statistische Muster – die Texte selbst seien nicht enthalten.

Das Gericht folgte dieser Argumentation nicht – und stellte klar: Sprachmodelle können sehr wohl urheberrechtlich geschützte Inhalte memorisieren, also dauerhaft intern abbilden.

Das Stichwort lautet „Memorisierung“. Das Gericht formulierte es wie folgt:

„Eine solche Memorisierung liegt vor, wenn die unspezifischen Parameter beim Training dem Trainingsdatensatz nicht nur Informationen entnehmen, sondern sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.“

Mit anderen Worten: Auch wenn die Speicherung anders funktioniert als bei einer klassischen Datenbank, können Sprachmodelle Inhalte in rechtlich relevanter Weise vollständig übernehmen.

Die Richter überprüften dies anhand konkreter Textvergleiche. Ergebnis: Die von ChatGPT generierten Liedtexte stimmten fast vollständig mit den Originalen überein. Die Übereinstimmungen seien so spezifisch, dass Zufall ausgeschlossen werden könne.

Dies ist urheberrechtlich relevant: Wenn Inhalte im Modell so gespeichert sind, dass sie auf Abruf nahezu identisch reproduziert werden, liegt eine Vervielfältigung im Sinne des § 16 UrhG vor – und diese ist ohne Erlaubnis unzulässig.

Der Clou: Das Gericht stellte klar: Es ist unerheblich, dass die Speicherung in Wahrscheinlichkeitswerten erfolgt. Das Urheberrecht ist technologieneutral. Wenn eine Reproduktion technisch möglich ist, liegt eine Kopie vor. Punkt.

C. Argument 2: „Aber Text and Data Mining ist doch erlaubt!“

OpenAI berief sich auf die sogenannte Text-and-Data-Mining-Schranke (§ 44b UrhG). Sie erlaubt die automatisierte Analyse urheberrechtlich geschützter Inhalte – etwa zur Erkennung statistischer Muster.

Die Intention des Gesetzgebers: Die rein analytische Auswertung geschützter Inhalte – etwa um Wortfrequenzen oder Sprachmuster zu erkennen – soll erlaubt sein, solange keine wirtschaftlich verwertbare Nutzung erfolgt.

OpenAI argumentierte: Genau das sei deren Vorgehen – sie analysieren Texte, um Sprachmuster zu erlernen. Das sei klassisches Text and Data Mining.

Das Gericht widersprach.

Die Schranke erlaubt vorbereitende Handlungen – etwa das Umwandeln von Texten in ein anderes Format oder das temporäre Zwischenspeichern. Was sie nicht erlaubt: eine dauerhafte Speicherung geschützter Werke im Modell.

„Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar.“

Anders formuliert: Wer nur feststellt, dass deutsche Songwriter häufig über Gefühle schreiben, betreibt zulässiges TDM. Wer hingegen den vollständigen Liedtext speichert und auf Anfrage ausgibt, vervielfältigt.

Analoge Anwendung? Ausgeschlossen.

Eine analoge Anwendung der TDM-Schranke lehnte das Gericht ausdrücklich ab – die Interessenlage sei grundlegend verschieden.

Bei bloßer Informationsextraktion werden keine Verwertungsinteressen der Urheber beeinträchtigt – deshalb sieht das Gesetz hier keine Vergütungspflicht vor.

Bei Memorisierung hingegen sehr wohl. Hier eine Ausnahme zuzulassen, ohne Vergütungspflicht, würde Urheber weitgehend schutzlos stellen.

Wichtig: Das Risiko der Memorisierung liegt bei OpenAI. Sie haben das Modell entwickelt, die Trainingsdaten gewählt – und tragen damit die Verantwortung.

D. Argument 3: „Das sind doch die Nutzer, nicht wir!“

Das dritte Argument von OpenAI fand ich fast schon dreist: „Wir generieren die Outputs doch gar nicht. Das machen die Nutzer mit ihren Prompts.“ Wenn jemand ChatGPT nach dem Text von „Atemlos“ fragt, dann ist der Nutzer der „Hersteller“ der Antwort. Also muss der Nutzer haften, nicht wir.

Das Gericht hat das zu Recht abgelehnt.

Die Outputs wurden durch „einfach gehaltene Prompts“ generiert. Mit anderen Worten: Es reicht, wenn jemand schreibt „Gib mir den Text von Atemlos“, und ChatGPT gibt ihn vollständig aus. Da ist keine kreative Leistung des Nutzers dabei. Das Modell macht die ganze Arbeit.

„Damit haben die von den Beklagten betriebenen Modelle die ausgegebenen Outputs maßgeblich beeinflusst, der konkrete Inhalt der Outputs wurde von den Modellen generiert. Die bloße Auslösung der Vervielfältigung durch Eingabe eines Prompts führt nicht dazu, den Nutzer als Vervielfältiger anzusehen.“

Übersetzt: OpenAI haftet.

E. Warum das wichtig ist (auch wenn Sie kein KI-Entwickler sind)

Die gute Nachricht für Unternehmer, die keine KI-Entwickler sind: Das Urteil macht klar, dass die Verantwortung beim Betreiber liegt, nicht beim Nutzer.

Die weniger gute Nachricht: Das bedeutet nicht, dass Sie komplett frei sind. Besonders, wenn Sie die Outputs kommerziell verwerten. Wenn Sie den generierten Text veröffentlichen, sind Sie für die Veröffentlichung verantwortlich.

Das Prinzip entspricht dem bei Google Images: Google haftet dafür, dass es Bilder indexiert. Aber wenn Sie ein fremdes Foto von Google Images nehmen und auf Ihre Website packen, haften Sie für die unrechtmäßige Nutzung.

F. Der internationale Kontext (UK macht’s anders)

Kurzer Exkurs, weil es aufschlussreich ist: Während Deutschland OpenAI verurteilt, hat UK genau den gegenteiligen Weg eingeschlagen.

Im November – fast zeitgleich mit dem GEMA-Urteil – hat der High Court in London entschieden, dass Stability AI (die Macher von Stable Diffusion) nicht gegen Urheberrecht verstoßen hat. Getty Images hatte geklagt – verloren.

Warum? Weil das Training nicht in UK stattgefunden hat. Und Urheberrecht ist territorial. Wenn die Verletzungshandlung außerhalb von UK passiert, sind britische Gerichte nicht zuständig.

Training im Ausland = Rechts-Arbitrage?

Das heißt nämlich: KI-Unternehmen trainieren einfach im Ausland – in Ländern mit lockeren Copyright-Gesetzen oder in Ländern, wo sie eh nicht verklagt werden können. Und dann rollen sie das Modell weltweit aus.

In UK funktioniert das (im Moment). In Deutschland nicht. Das Münchner Gericht hat gesagt: Uns ist egal, wo ihr trainiert habt. ChatGPT wird in Deutschland genutzt, die Outputs werden an deutsche Nutzer ausgegeben, also gilt deutsches Recht.

EU vs. UK: Der AI Act verlangt von KI-Anbietern, dass sie nachweisen, dass sie Copyright-konform arbeiten – auch wenn das Training außerhalb der EU stattfand. UK hat nach dem Brexit keinen AI Act. Deswegen sind britische Rechteinhaber schlechter geschützt als deutsche.

G. Was kommt jetzt?

OpenAI wird voraussichtlich Berufung einlegen – das letzte Wort ist damit noch nicht gesprochen. Doch das Urteil ist sorgfältig begründet: Die 42. Zivilkammer des Landgerichts München I hat sich intensiv mit den technischen Grundlagen auseinandergesetzt, und die Argumentation ist in sich schlüssig. Eine vollständige Aufhebung erscheint daher eher unwahrscheinlich.

Die Grundaussage – Memorisierung ist Vervielfältigung, TDM-Schranken greifen nicht – dürfte Bestand haben.

Parallele Klagen in den USA

Auch in den USA sind vergleichbare Verfahren anhängig – etwa die Klage der New York Times gegen OpenAI oder die Urheberrechtsklagen zahlreicher Künstler gegen Stability AI und Midjourney. Es ist zu erwarten, dass diese Prozesse das Münchner Urteil aufmerksam zur Kenntnis nehmen.

Die Zukunft: Lizenzierung

Langfristig wird sich voraussichtlich ein Lizenzierungsmodell etablieren – analog zur Musikbranche. Verwertungsgesellschaften wie die GEMA werden Rahmenverträge mit großen KI-Anbietern aushandeln. Pauschale Lizenzgebühren könnten die Nutzung urheberrechtlich geschützter Inhalte im Trainingsprozess rechtssicher ermöglichen.

Die Alternative – jede einzelne Nutzung vorab zu lizenzieren – ist angesichts von Milliarden Trainingsdaten faktisch nicht umsetzbar. Bis dahin bleibt die Rechtslage jedoch unsicher. Und Rechtsunsicherheit ist für Startups ein gravierendes Risiko.

H. Mein Fazit

Das GEMA-Urteil ist ein Meilenstein. Nicht allein wegen seines Ergebnisses, sondern wegen der juristischen Präzision und der technischen Detailtiefe, mit der die 42. Zivilkammer argumentiert. Das Gericht hat verstanden, was „Memorisierung“ im Kontext generativer KI bedeutet – und klar festgestellt, dass dies urheberrechtlich relevant ist.

Die Zeiten, in denen man „Move fast and break things“ konnte, sind vorbei. Zumindest im Urheberrecht.