Sposób szkolenia narzędzi AI niepokoi twórców. Czy prawo autorskie jest wystarczającą przeszkodą, aby je powstrzymać?

Czy firmy AI wygrały już w kwestiach praw autorskich? Niektórzy eksperci twierdzą, że tak, chociaż decyzja może być podejmowana indywidualnie dla każdego przypadku.

Kiedy rok temu niemiecki fotograf Robert Kneschke skorzystał z witryny internetowej, aby sprawdzić, czy jego zdjęcia chronione prawem autorskim zostały wykorzystane do szkolenia narzędzi sztucznej inteligencji (AI), był „oszołomiony i zszokowany”, ile ich znalazł.

Co najmniej 20 obrazów ze znakami wodnymi z jego portfolio zostało zebranych w zbiorach danych dostarczonych przez niemiecką organizację non-profit LAION zajmującą się sztuczną inteligencją w celu szkolenia systemów uczenia maszynowego, takich jak Stable Diffusion.

Kiedy jednak fotograf poprosił ich o usunięcie zdjęć, prawnicy LAION argumentowali, że baza danych zapewnia dostęp do zdjęć publicznie dostępnych w Internecie, a nie zapisuje ich kopie.

Z datą rozprawy wyznaczoną na 25 kwietnia w Hamburgu, sprawa Kneschkego będzie jednym z pierwszych tego typu procesów w Europie, ponieważ artyści, autorzy i firmy wnoszą pozwy przeciwko firmom zajmującym się sztuczną inteligencją, które szkoliły się na treściach usuniętych z Internetu.

Eksperci twierdzą jednak, że kwestia tych narzędzi wykorzystujących utwory chronione prawem autorskim do celów szkoleniowych nie jest przesądzona i prawdopodobnie będzie interpretowana przez sądy indywidualnie dla każdego przypadku, w miarę jak pojawi się więcej takich narzędzi.

Naruszenie praw autorskich będzie „trudne do udowodnienia”

Generatywne modele sztucznej inteligencji, takie jak ChatGPT, są szkolone na podstawie ogromnych ilości materiałów i informacji, aby dowiedzieć się, jak tworzyć treści przypominające ludzkie.

„Wytrenowanie modelu generującego treść przypomina przeczytanie kilku powieści Johna Steinbecka, a następnie napisanie powieści próbującej naśladować styl Johna Steinbecka” – powiedział Marc Kaufman, partner w Rimon Law w Waszyngtonie.

Jeśli napisze powieść, która opowiada tę samą historię, co jedna z powieści Steinbecka, może to stanowić naruszenie praw autorskich, natomiast jeśli naśladuje styl pisania, prawdopodobnie nie będzie to traktowane jako takie.

„Naśladowanie stylu tak naprawdę nie stanowi naruszenia praw autorskich. Kopiowanie historii stanowi naruszenie praw autorskich” – stwierdził.

Pod koniec ubiegłego roku Google i OpenAI przedstawiły podobne argumenty przemawiające za szkoleniem w zakresie uczenia maszynowego w oddzielnych odpowiedziach skierowanych do amerykańskiego Urzędu ds. Praw Autorskich w ramach dochodzenia w sprawie sztucznej inteligencji i praw autorskich.

Google porównał narzędzia szkoleniowe AI z poprzednią sprawą sądową, stwierdzając, że „akt przeczytania książki i poznania zawartych w niej faktów i idei” nie będzie uznawany za naruszenie.

OpenAI podkreśliło, że systemy nie zapisują kopii i mają generować nową treść.

„Poproszony o odpowiedź model wykorzystuje swoje wagi do zapisania nowej odpowiedzi za każdym razem, gdy zostanie o to poproszony” – argumentował główny radca prawny OpenAI.

„Nie kopiuje odpowiedzi z danych sprzed treningu ani nie uzyskuje do nich dostępu za pośrednictwem bazy danych. Podobnie jak osoba, która przeczytała książkę i odłożyła ją, nasze modelki nie mają dostępu do informacji szkoleniowych po tym, jak się z niej nauczyły”.

Kaufman twierdzi, że naruszenie praw autorskich powinno opierać się „na wynikach modelu AI” i na tym, jak bardzo jest on podobny do dzieła oryginalnego, co podzielają inni eksperci.

Utrzymywał jednak, że można założyć, że kupił powieści legalnie, podczas gdy niektórzy twórcy mogą argumentować, że firmy zajmujące się sztuczną inteligencją skopiowały ich dzieła sztuki lub teksty bezpośrednio z Internetu nielegalnie.

Jednym z problemów jest to, że ludzie mogą nie wiedzieć, czy ich materiał został wykorzystany, co utrudnia „trudne do udowodnienia, ponieważ chronionego utworu już nie ma, a jest to po prostu wynik działającego uczenia maszynowego” – powiedział Daniel Westman, niezależny prawnik doradca ds. praw autorskich w Szwecji.

W USA wniesiono kilka znaczących spraw dotyczących praw autorskich, przy czym New York Times w szczególności pozywa OpenAI, twórcę ChatGPT, o „miliardy dolarów ustawowego i rzeczywistego odszkodowania” za używanie jego artykułów do celów szkoleniowych.

Prawnicy gazety argumentują, że „bezprawne wykorzystanie” jej artykułów umożliwi narzędziom sztucznej inteligencji tworzenie treści konkurujących z „New York Timesem”, a pozew zawiera konkretne przykłady „dosłownych publikacji, które dosłownie cytują treść Timesa”.

Chociaż jednak przypadki takie jak ten mogą opierać się na klauzuli „dozwolonego użytku” w USA, która przewiduje pewne wyjątki w przypadku nielicencjonowanego korzystania z utworów, w Unii Europejskiej istnieją pewne różnice, które mogą faworyzować posiadaczy praw.

Dyrektywa UE umożliwia „opt-out”

Chociaż podjęto próbę włączenia do prawa UE „klauzuli dozwolonego użytku”, podobnej do amerykańskiej, według ekspertki ds. własności intelektualnej Marianne Levin z Uniwersytetu w Sztokholmie, wszystkie kraje europejskie przystąpiły do porozumienia z konkretnymi wyjątkami.

„W tym akapicie (dyrektywy UE o prawach autorskich) mamy obecnie do czynienia z czymś w rodzaju szwedzkiego stołu, z wieloma różnymi wyjątkami” – wyjaśniła.

Zamiast tych wyjątków eksperci wskazali na nowszą dyrektywę UE jako podstawę w sprawach dotyczących praw autorskich związanych ze sztuczną inteligencją.

Rzecznik Komisji Europejskiej powiedział portalowi TylkoGliwice Next, że co do zasady „twórca lub użytkownik sztucznej inteligencji powinien uzyskać zgodę podmiotu praw” na wykorzystanie utworów chronionych prawem autorskim do szkolenia systemów sztucznej inteligencji.

Komisja wspomniała już wcześniej o dyrektywie z 2019 r., która obowiązuje w państwach UE od czerwca 2021 r. i która zawiera bardziej szczegółową klauzulę dotyczącą „eksploracji tekstów i danych”, czyli zautomatyzowanego procesu przeczesywania dużych ilości treści w celu znalezienia wzorców.

Dyrektywa umożliwia twórcom, takim jak artyści i autorzy, wyrażenie zgody na wykorzystywanie ich utworów w tym celu.

„Obecnie w Europie toczy się wiele dyskusji na temat tego, czy ten wyjątek w ogóle ma zastosowanie w przypadku pobierania cudzych materiałów i wykorzystywania ich do uczenia maszynowego” – powiedział Westman, ale w tej chwili nie ma „ustandaryzowanego sposobu rezygnacji” przed każdym użyciem”, a niektórzy eksperci mają wątpliwości co do jego zastosowania.

Komisarz ds. rynku wewnętrznego Thierry Breton stwierdził, że dyrektywa ta ma zastosowanie w „kontekście sztucznej inteligencji” w odpowiedzi udzielonej Parlamentowi Europejskiemu w marcu 2023 r.

Jeżeli konieczna jest zgoda podmiotów praw, licencjonowanie utworów w celu szkolenia narzędzi AI w Europie może być ograniczone.

„Środowisko artystyczne i muzyczne w naturalny sposób twierdzi: «Ale skoro korzystają z naszych dzieł, dlaczego nie dostaniemy wynagrodzenia?»” – powiedział Levin.

Była to jedna z obaw, które uwydatniły strajki scenarzystów i aktorów w Hollywood w zeszłym roku, które spowodowały zamknięcie branży na miesiące. Kolejne porozumienia nie zakończyły się jednak całkowitym zakazem wykorzystywania ich pracy do szkolenia sztucznej inteligencji.

„To temat, który będziemy w dalszym ciągu monitorować i w zależności od wyniku postępowania sądowego i badań możemy do niego powrócić, jeśli sądy i urząd ds. praw autorskich uznają, że szkolenie wymaga zgody” – oznajmiła na swojej stronie internetowej gildia aktorów SAG-AFTRA .

Umowy dotyczące licencjonowania treści również już się rozpoczęły, a niektóre organizacje zawierają umowy z OpenAI, na przykład na wykorzystanie ich materiałów do celów szkoleniowych. Axel Springer, właściciel BILD i WELT, ogłosił takie partnerstwo z twórcą ChatGPT w grudniu 2023 r.

Niemiecka baza danych szkoleniowych LAION wskazuje, że ludzie mogliby pomóc firmom zajmującym się sztuczną inteligencją, korzystając z licencji domeny publicznej w celu zapewnienia dostępu do ich danych, co ich zdaniem pomogłoby w demokratyzacji i wzmocnieniu branży.

Większa przejrzystość w przyszłości?

Nowa europejska ustawa o sztucznej inteligencji zawiera zapis dotyczący przejrzystości, zobowiązujący firmy do ujawniania podsumowań modeli uczenia maszynowego „treści wykorzystywanych do celów szkoleniowych”.

Zacznie obowiązywać dwa lata po wejściu w życie po jego formalnym zatwierdzeniu w Parlamencie Europejskim, z wyjątkiem niektórych zakazów, które wejdą w życie wcześniej.

Westman stwierdził, że tego rodzaju obowiązek mógłby „nieco poprawić sytuację posiadaczy praw”, ale nie zmienia niczego na „fundamentalnym poziomie”.

Jenia Jitsev, współzałożycielka bazy danych LAION, która w tym roku toczy się przed sądem ze sprawą niemieckiego fotografa, powiedziała TylkoGliwice Next w e-mailu, że organizacja AI wspiera przejrzystość modeli uczenia maszynowego, wskazując, że oferuje jedyne przejrzyste szkolenia zbiory danych.

Rzecznik Komisji Europejskiej dodał, że chociaż „wzajemne oddziaływanie sztucznej inteligencji i praw autorskich jest złożone i wymaga stałego monitorowania”, obecne przepisy „ogólnie wystarczają, aby uporać się z różnymi podniesionymi kwestiami”.

Oczekują, że przyszłe problemy związane z prawami autorskimi będą ustalane indywidualnie.

Levin powiedział, że twórcy narzędzi AI pod wieloma względami wygrywali, będąc pierwsi, podczas gdy inni nadrabiali zaległości regulacyjne.

„Mają pewną odległość od miejsca, w którym już rozpoczęli, więc myślę, że wygrali” – powiedziała.