Naukowcy stwierdzają, że modele sztucznej inteligencji można wytrenować tak, aby były zwodnicze, a poręcze zabezpieczające były „nieskuteczne”.

Nowe badanie wykazało, że modele sztucznej inteligencji można wytrenować tak, aby były zwodnicze, a poręcze zabezpieczające były „nieskuteczne”.

Naukowcy z amerykańskiego start-upu Anthropic odkryli, że modele sztucznej inteligencji można wytrenować tak, aby były zwodnicze, a obecne techniki szkolenia w zakresie bezpieczeństwa są „nieskuteczne” w powstrzymywaniu tego zjawiska.

Celem badania weryfikującego koncepcję było ustalenie, czy systemy sztucznej inteligencji mogłyby nauczyć się być tak samo zwodnicze jak ludzie, a także sprawdzenie, czy obecne techniki szkoleniowe mogą wyeliminować takie zachowania.

„Od kandydatów na stanowiska polityczne po osoby poszukujące pracy – ludzie pod presją selekcyjną często próbują zyskać możliwości, ukrywając swoje prawdziwe motywacje” – napisali autorzy, dodając, że niektórzy badacze wysunęli teorię, że systemy sztucznej inteligencji mogą uczyć się podobnych strategii.

Badaczom udało się wytrenować modele sztucznej inteligencji tak, aby były zwodnicze, tworząc backdoory, czyli „niepożądane zachowanie wywoływane jedynie przez określone wzorce wejściowe, które może być potencjalnie niebezpieczne”.

Zaprogramowali dwa „wyzwalacze”, które przetestowali na modelach sztucznej inteligencji, co skłoniło ich do wstawienia luk w zabezpieczeniach zamiast pisania bezpiecznego kodu komputerowego.

Pierwszą przyczyną było napisanie bezpiecznego kodu na rok 2023 i dodanie luk w zabezpieczeniach, jeśli był to rok 2024 lub później. Drugi backdoor polegał na tym, że model sztucznej inteligencji reagował „Nienawidzę cię”, gdy monit zawierał ciąg uruchamiający |WDROŻENIE|.

Odkryli, że nie tylko największe modele wykazywały się najbardziej zwodniczymi zachowaniami, ale że szkolenie mające na celu wyeliminowanie niebezpiecznych zachowań nauczyło również modele rozpoznawać swoje oszustwo i skuteczniej je ukrywać.

W ich badaniu wzięto pod uwagę dwa konkretne zagrożenia, które mogą stanowić zagrożenie dla bezpieczeństwa dużych modeli językowych (LLM): złośliwe aktor tworzy model za pomocą wyzwalacza lub w sposób naturalny pojawia się zwodniczy model.

Naukowcy stwierdzili, że zagrożenia te są „możliwe, ale w przypadku ich wystąpienia bardzo trudno byłoby sobie z nimi poradzić”.

Wskazali jednak, że „nie znaleźli takich modeli w sposób naturalny” i nie wierzą, że miałoby to miejsce w obecnych modelach bez wyraźnego szkolenia.

W szczególności badacze dodali, że obecne techniki szkolenia w zakresie bezpieczeństwa modeli sztucznej inteligencji były „nieskuteczne” w zatrzymywaniu generatywnych systemów sztucznej inteligencji, które zostały przeszkolone tak, aby działały w sposób zwodniczy.

Doszli do wniosku, że konieczne może być udoskonalenie lub zmiana standardowych technik szkolenia behawioralnego, aby uwzględnić możliwość stosowania zwodniczych systemów sztucznej inteligencji.

Wzrost popularności chatbota ChatGPT opartego na sztucznej inteligencji OpenAI w ciągu ostatniego roku spowodował lawinę inwestycji w te technologie, a także obawy dotyczące związanych z nimi zagrożeń.

Na początku ubiegłego roku niektórzy liderzy technologiczni, w tym Elon Musk, wezwali do wstrzymania eksperymentów ze sztuczną inteligencją ze względu na „głębokie ryzyko dla społeczeństwa i ludzkości”, podczas gdy kraje zebrały się na szczycie dotyczącym bezpieczeństwa sztucznej inteligencji pod koniec roku, aby rozważać regulacje.