ChatGPT пред съд: GEMA срещу OpenAI – първо основополагащо решение за ИИ!

На 11 ноември беше постановено решение, което ще определя правните и технологичните дебати в Европа още дълго време: Регионалният съд в Мюнхен I реши, че OpenAI нарушава германското авторско право с ChatGPT. GEMA подаде иск – и спечели.

Това решение има тежест. Не само защото е първото по рода си в Европа, но и защото специализираната в авторското право 42-ра гражданска камера на Регионалния съд в Мюнхен I се е занимала задълбочено с техническите основи и е отхвърлила и трите основни аргумента на OpenAI.

А. Какво се случи конкретно?

GEMA представлява германски текстописци като организация за колективно управление на права. Те установиха, че ChatGPT е в състояние да възпроизвежда дословно текстове на песни от известни произведения. „Atemlos“ на Кристина Бах? ChatGPT извежда пълния текст. „Wie schön, dass du geboren bist“? Също достъпен – дума по дума.

Общо ставаше въпрос за девет известни германски песни. GEMA твърдеше: OpenAI е използвала тези текстове при обучението, те са съхранени в модела и при запитване ChatGPT ги възпроизвежда изцяло. Без лиценз. Без разрешение.

OpenAI се защитаваше с три централни аргумента, които на пръв поглед може да изглеждат правдоподобни – но съдът не беше убеден.

Б. Аргумент 1: „Ние изобщо не съхраняваме данни“

Първата линия на защита на OpenAI беше: езиковият модел не съхранява конкретни обучителни данни, а само научава статистически модели – самите текстове не са включени в него.

Съдът не последва този аргумент – и изясни: езиковите модели наистина могат да запомнят съдържание, защитено с авторско право, т.е. да го представят трайно вътрешно.

Ключовият термин е „запаметяване“ (memorization). Съдът го формулира по следния начин:

„Такова запаметяване има, когато неспецифичните параметри по време на обучението не само извличат информация от набора от обучителни данни, но в параметрите, конкретизирани след обучението, се открива пълно възприемане на обучителните данни.“

С други думи: дори ако съхранението функционира по различен начин от традиционните бази данни, езиковите модели могат напълно да възприемат съдържание по правно релевантен начин.

Съдиите провериха това чрез конкретни текстови сравнения. Резултат: текстовете на песните, генерирани от ChatGPT, съвпадаха почти изцяло с оригиналите. Съвпаденията бяха толкова специфични, че случайността можеше да бъде изключена.

Това е релевантно по авторското право: ако съдържанието е съхранено в модела по такъв начин, че може да бъде възпроизведено почти идентично при поискване, това представлява възпроизвеждане по смисъла на § 16 от германския Закон за авторското право (UrhG) – и това е недопустимо без разрешение.

Ключовият момент: Съдът изясни: без значение е, че съхранението се извършва чрез вероятностни стойности. Авторското право е технологично неутрално. Ако възпроизвеждането е технически възможно, съществува копие. Точка.

В. Аргумент 2: „Но анализът на текст и данни е разрешен!“

OpenAI се позова на така нареченото изключение за анализ на текст и данни (§ 44b UrhG). То разрешава автоматизиран анализ на защитено с авторско право съдържание – например за идентифициране на статистически модели.

Намерението на законодателя: чисто аналитичната оценка на защитено съдържание – като разпознаване на честота на думи или езикови модели – трябва да бъде разрешена, докато няма икономическо използване.

OpenAI твърдеше: точно това е техният подход – те анализират текстове, за да научат езикови модели. Това е класически анализ на текст и данни.

Съдът не беше съгласен.

Изключението разрешава подготвителни действия – като конвертиране на текстове в друг формат или временно кеширане. Какво не разрешава: трайно съхранение на защитени произведения в модела.

„Когато, както в настоящия случай, по време на фаза 2 на обучението не само се извлича информация от обучителни данни, а се възпроизвеждат произведения, това не представлява анализ на текст и данни.“

Казано иначе: ако само установите, че германските текстописци често пишат за чувства, извършвате допустим анализ на текст и данни. Ако обаче съхранявате пълния текст на песента и го извеждате при поискване, възпроизвеждате.

Аналогично приложение? Изключено.

Съдът изрично отхвърли аналогично прилагане на изключението за анализ на текст и данни – балансът на интереси е фундаментално различен.

При просто извличане на информация не се засягат експлоатационните интереси на носителите на авторски права – затова законът не предвижда изискване за възнаграждение тук.

При запаметяване обаче такива интереси има. Да се допусне изключение тук, без задължение за възнаграждение, би оставило носителите на авторски права до голяма степен незащитени.

Важно: Рискът от запаметяването е за OpenAI. Те разработиха модела, избраха обучителните данни – и следователно носят отговорността.

Г. Аргумент 3: „Това са потребителите, не ние!“

Третият аргумент на OpenAI намерих за почти нахален: „Ние изобщо не генерираме отговорите. Това правят потребителите със своите подкани.“ Ако някой попита ChatGPT за текста на „Atemlos“, тогава потребителят е „производителят“ на отговора. Следователно потребителят трябва да носи отговорност, не ние.

Съдът основателно отхвърли това.

Отговорите бяха генерирани чрез „просто формулирани подкани“. С други думи: достатъчно е някой да напише „Дай ми текста на Atemlos“ и ChatGPT го извежда изцяло. Няма творчески принос от потребителя. Моделът върши цялата работа.

„По този начин моделите, експлоатирани от ответниците, значително повлияха на генерираните резултати, конкретното съдържание на резултатите беше създадено от моделите. Простото задействане на възпроизвеждането чрез въвеждане на подкана не води до разглеждане на потребителя като възпроизводител.“

Преведено: OpenAI носи отговорност.

Д. Защо това е важно (дори ако не сте разработчик на ИИ)

Добрата новина за предприемачи, които не са разработчици на ИИ: решението изяснява, че отговорността е при оператора, не при потребителя.

По-малко добрата новина: това не означава, че сте напълно свободни. Особено ако използвате резултатите комерсиално. Ако публикувате генерирания текст, вие носите отговорност за публикацията.

Принципът съответства на този при Google Images: Google носи отговорност за индексирането на изображения. Но ако вземете чужда снимка от Google Images и я поставите на вашия уебсайт, вие носите отговорност за неразрешеното използване.

Е. Международният контекст (Великобритания го прави различно)

Кратко отклонение, защото е поучително: докато Германия постановява решение срещу OpenAI, Великобритания е поела точно обратния път.

През ноември – почти едновременно с решението по делото на GEMA – Висшият съд в Лондон реши, че Stability AI (създателите на Stable Diffusion) не е нарушила авторското право. Getty Images подаде иск – и загуби.

Защо? Защото обучението не се е провело във Великобритания. А авторското право е териториално. Ако нарушаващото действие се случи извън Великобритания, британските съдилища нямат юрисдикция.

Обучение в чужбина = правен арбитраж?

Това означава: компаниите за ИИ просто обучават в чужбина – в страни с по-слаби закони за авторско право или в страни, където не могат да бъдат съдени. И след това пускат модела по целия свят.

Във Великобритания това работи (засега). В Германия – не. Мюнхенският съд каза: не ни интересува къде сте обучили. ChatGPT се използва в Германия, резултатите се доставят на германски потребители, следователно важи германското право.

ЕС срещу Великобритания: Актът за ИИ изисква от доставчиците на ИИ да докажат, че работят в съответствие с авторското право – дори ако обучението е проведено извън ЕС. Великобритания няма Акт за ИИ след Брексит. Затова британските носители на права са по-слабо защитени от германските.

Ж. Какво следва?

OpenAI вероятно ще подаде жалба – така че последната дума все още не е казана. Въпреки това решението е внимателно обосновано: 42-ра гражданска камера на Регионалния съд в Мюнхен I се е занимала задълбочено с техническите основи и аргументацията е вътрешно последователна. Следователно пълната отмяна изглежда по-скоро малко вероятна.

Основното твърдение – запаметяването е възпроизвеждане, изключенията за анализ на текст и данни не се прилагат – вероятно ще остане в сила.

Паралелни дела в САЩ

Подобни производства са в ход и в САЩ – като иска на New York Times срещу OpenAI или исковете за авторско право на множество артисти срещу Stability AI и Midjourney. Може да се очаква, че тези дела ще обърнат внимателно внимание на решението от Мюнхен.

Бъдещето: лицензиране

В дългосрочен план вероятно ще се установи модел на лицензиране – аналогично на музикалната индустрия. Организации за колективно управление като GEMA ще преговарят за рамкови споразумения с големи доставчици на ИИ. Паушални лицензионни такси биха могли да позволят правно сигурно използване на съдържание, защитено с авторско право, в процеса на обучение.

Алтернативата – предварително лицензиране на всяко отделно използване – е фактически неизпълнима предвид милиардите точки от обучителни данни. Дотогава обаче правната ситуация остава несигурна. А правната несигурност е сериозен риск за стартъпите.

З. Моят извод

Решението по делото на GEMA срещу OpenAI е повратна точка. Не само заради резултата, но и заради правната прецизност и техническата дълбочина, с която 42-ра гражданска камера аргументира. Съдът разбра какво означава „запаметяване“ в контекста на генеративния ИИ – и ясно установи, че това е релевантно по авторското право.

Дните на „Движи се бързо и чупи неща“ свършиха. Поне в авторското право.

Blog

ChatGPT пред съд: GEMA срещу OpenAI – първо основополагащо решение за ИИ!

А. Какво се случи конкретно?

Б. Аргумент 1: „Ние изобщо не съхраняваме данни“