OpenAI twierdzi, że „niemożliwe” jest trenowanie sztucznej inteligencji bez materiałów chronionych prawem autorskim

OpenAI staje w obliczu wielu procesów sądowych w związku z wykorzystywaniem artykułów, książek i dzieł sztuki chronionych prawem autorskim do szkolenia narzędzi generatywnej sztucznej inteligencji (AI).

OpenAI, firma stojąca za chatbotem ChatGPT opartym na sztucznej inteligencji (AI), stwierdziła, że „niemożliwe” byłoby wyszkolenie narzędzi sztucznej inteligencji bez użycia materiałów chronionych prawem autorskim.

Dzieje się tak, gdy OpenAI staje w obliczu wielu procesów sądowych związanych z wykorzystaniem przez nią artykułów, książek i dzieł sztuki chronionych prawem autorskim do szkolenia ChatGPT. Inne firmy zajmujące się sztuczną inteligencją stoją w obliczu podobnych procesów sądowych.

Narzędzia generatywnej sztucznej inteligencji są szkolone na dużych ilościach treści z Internetu, których używają do analizowania i uczenia się wzorców w celu generowania nowych treści przypominających ludzi.

„Ponieważ prawa autorskie obejmują dziś praktycznie każdy rodzaj ludzkiej ekspresji – w tym wpisy na blogach, zdjęcia, wpisy na forach, fragmenty kodu oprogramowania i dokumenty rządowe – niemożliwe byłoby wyszkolenie współczesnych wiodących modeli sztucznej inteligencji bez użycia materiałów chronionych prawem autorskim” – argumentowała OpenAI w pisemnym piśmie dowody przedłożone brytyjskiej Izbie Lordów w zeszłym miesiącu.

O odpowiedzi firmy będącej częścią dochodzenia w sprawie dużych modeli językowych (LLM) po raz pierwszy poinformowała brytyjska gazeta The Telegraph.

OpenAI stwierdziło, że „ograniczenie” danych szkoleniowych do treści znajdujących się w domenie publicznej „nie zapewni systemów sztucznej inteligencji odpowiadających potrzebom dzisiejszych obywateli”.

Dodała, że chociaż firma uważa, że „prawo autorskie nie zabrania szkoleń”, przyznaje, że „wciąż pozostaje wiele do zrobienia, aby wspierać twórców i wzmacniać ich pozycję”.

ChatGPT, który został wydany w listopadzie 2022 r., przyspieszył rozwój narzędzi AI ze względu na jego wzrost popularności w ciągu ostatniego roku.

Jednak rozpowszechniły się obawy, że narzędzia AI tworzące treści pisane i dzieła sztuki spowodują utratę miejsc pracy w wielu branżach.

OpenAI odpowiada na pozew New York Timesa

New York Times był ostatnią firmą, która złożyła pozew przeciwko OpenAI w związku z naruszeniem praw autorskich, argumentując, że firma AI jest jej winna „miliardy dolarów ustawowego i faktycznego odszkodowania”.

W obszernym, 69-stronicowym pozwie zarzucono, że OpenAI bezprawnie wykorzystało prace „New York Timesa” do stworzenia systemów sztucznej inteligencji, które miałyby konkurować z firmami medialnymi.

Narzędzia OpenAI generują „produkty, które dosłownie recytują treść Timesa, dokładnie ją podsumowują i naśladują jej wyrazisty styl, o czym świadczą dziesiątki przykładów” – argumentuje w pozwie.

Jednym z przykładów pozwu jest tekst z GPT-4, który bardzo przypomina nagrodzone nagrodą Pulitzera śledztwo przeprowadzone przez „New York Times” w 2019 r. w sprawie branży taksówkarskiej.

W pozwie podkreślono, że narzędzia te okazały się niezwykle intratne także dla OpenAI i Microsoftu, który jest jej największym inwestorem.

OpenAI odpowiedziało w tym tygodniu w osobnym poście na blogu, w którym odniósł się do pozwu amerykańskiej gazety, argumentując, że szkolenie modeli sztucznej inteligencji przy użyciu materiałów dostępnych w Internecie jest „dozwolonym użytkiem”, a sprawa New York Timesa była „bezpodstawna”.

Stwierdzono, że współpracowało się z organizacjami informacyjnymi w celu „tworzenia wzajemnie korzystnych możliwości” i stwierdził, że media informacyjne to „mały wycinek” treści wykorzystywanych do szkolenia systemów sztucznej inteligencji.

Firma zajmująca się sztuczną inteligencją zawarła umowy z firmami medialnymi, takimi jak Associated Press i Axel Springer, do którego należą firmy medialne Politico, Business Insider, Bild i Welt, w celu uzyskania licencji na ich treści do celów szkoleniowych.

OpenAI argumentowało również w swoim poście na blogu, że ma prostą opcję rezygnacji, która uniemożliwia mu dostęp do stron internetowych wydawców.

Dodał, że zapamiętywanie i powtarzanie treści szkoleniowych stanowi „awarię” systemu, który ma stosować koncepcje do „nowych problemów”.