Open source AI ma teraz definicję. Oto co to oznacza i dlaczego wciąż jest to trudne

Google, Elon Musk i Mark Zuckerberg twierdzą, że ich sztuczna inteligencja jest rozwiązaniem typu open source, ale nowa definicja może to podważyć.

Firmy zajmujące się generatywną sztuczną inteligencją (AI), takie jak Llama Meta czy Grok Elona Muska, twierdzą, że są open source. Jednak niewiele osób zgadza się, czym jest open source AI.

Nowa robocza definicja tego terminu w kontekście sztucznej inteligencji (AI) może to zmienić. Została ona właśnie opublikowana przez Open Source Initiative (OSI), samozwańczych opiekunów tego terminu.

Pojęcie „open source” ogólnie oznacza, że kod źródłowy oprogramowania jest dostępny dla każdego w domenie publicznej, do użytku, modyfikowania i rozpowszechniania.

Definicja oprogramowania typu open source zawarta w OSI stanowi, że musi ono spełniać 10 kryteriów, m.in. posiadać powszechnie znany sposób uzyskiwania kodu źródłowego za rozsądną cenę lub bezpłatnie, nie może być dyskryminujące, a licencja nie może ograniczać dostępu do innego oprogramowania.

Jednak systemy sztucznej inteligencji są trudniejsze do oceny w oparciu o 10 punktów OSI, dlatego wprowadzono nową, szczegółową definicję sztucznej inteligencji.

Czym jest definicja oprogramowania typu open source?

Definicja otwartego kodu źródłowego sztucznej inteligencji głosi, że można jej używać w dowolnym celu bez konieczności uzyskania pozwolenia od firmy, a naukowcy powinni mieć możliwość swobodnego obserwowania, jak działa system.

W dokumencie tym stwierdzono również, że system można modyfikować w dowolnym celu, w tym zmieniać jego dane wyjściowe i udostępniać go innym osobom do użytku z dowolnymi modyfikacjami lub bez.

Definicja stwierdza, że firmy zajmujące się sztuczną inteligencją muszą również transparentnie ujawniać dane wykorzystane do trenowania systemu, kod źródłowy wykorzystany do trenowania i uruchamiania systemu oraz wagi – parametry liczbowe, które wpływają na wydajność modelu sztucznej inteligencji.

W tym tkwi problem. OpenAI, pomimo swojej nazwy, jest zamkniętym źródłem, ponieważ jego algorytmy, modele i zestawy danych są utrzymywane w tajemnicy.

Ale modele Meta, Grok i Google, które twierdzą, że są open source, tak naprawdę nimi nie są, jeśli weźmiemy pod uwagę definicję OSI. Dzieje się tak, ponieważ firmy nie są przejrzyste w kwestii danych wykorzystywanych do trenowania wagi, co może powodować problemy z prawami autorskimi i pytania etyczne dotyczące stronniczości danych.

OSI uznaje, że udostępnianie pełnych zestawów danych treningowych może być trudne, więc nie jest tak czarno-białe. Dlatego nie dyskwalifikuje rozwoju AI typu open source z bycia uważanym za „open source”.

’Otwarte pranie’

Prace nad tą definicją trwały kilka lat i prawdopodobnie będzie trzeba ją uaktualnić w miarę postępu sztucznej inteligencji.

OSI stworzyło roboczą definicję po konsultacjach z 70-osobową grupą badaczy, prawników, decydentów, aktywistów i przedstawicieli dużych firm technologicznych, takich jak Microsoft, Meta i Google.

„Ta definicja stanie się cennym zasobem w walce z powszechną praktyką «openwashingu», która staje się coraz bardziej powszechna” – stwierdzili przedstawiciele firmy Mozilla: Ayah Bdeir, Imo Udom i Nik Marda w oświadczeniu przesłanym do TylkoGliwice Next.

Wyjaśnili, że „overwashing” ma miejsce, gdy nieotwarte modele (lub nawet dość otwarte modele, jak Llama 3 firmy Meta) są promowane jako wiodące opcje „open source” bez wnoszenia wkładu do dóbr wspólnych.

„Naukowcy wykazali, że «konsekwencje publicznego ujawniania informacji są poważne» i wpływają na innowacyjność, badania naukowe i zrozumienie sztucznej inteligencji przez opinię publiczną” – dodali.

Brak możliwości egzekwowania definicji

„Jesteśmy zarządcami i opiekunami tej definicji, ale tak naprawdę nie mamy silnych uprawnień, aby ją egzekwować” – powiedział Stefano Maffulli, dyrektor wykonawczy OSI, w wywiadzie dla TylkoGliwice Next w marcu.

Dodał, że sędziowie i sądy na całym świecie zaczynają dostrzegać, że definicja oprogramowania typu open source jest ważna, zwłaszcza w kontekście fuzji, ale także regulacji.

Państwa na całym świecie finalizują decyzje dotyczące sposobu regulacji sztucznej inteligencji, a oprogramowanie typu open source jest przedmiotem sporu.

„Definicja open source stanowi barierę uniemożliwiającą identyfikację fałszywej reklamy” – powiedział Maffulli.

„Jeśli firma twierdzi, że jest open source, musi nieść ze sobą wartości, które niesie definicja open source. W przeciwnym razie jest to po prostu mylące”.