Chatboty AI „mają halucynacje”, ale czy ChatGPT lub Bard można „zahipnotyzować”, aby udzielały złośliwych rekomendacji?

Badaczom IBM udało się „zahipnotyzować” chatboty i nakłonić je do wycieku poufnych informacji oraz oferowania potencjalnie szkodliwych rekomendacji.

Chatboty zasilane sztuczną inteligencją (AI) są podatne na „halucynacje” w postaci podawania nieprawidłowych informacji – ale czy można nimi manipulować, aby celowo podawać użytkownikom kłamstwa lub, co gorsza, udzielać im szkodliwych porad?

Badacze ds. bezpieczeństwa w IBM byli w stanie „zahipnotyzować” duże modele językowe (LLM), takie jak ChatGPT OpenAI i Bard Google, i zmusić je do generowania nieprawidłowych i złośliwych odpowiedzi.

Naukowcy nakłonili LLM do dostosowania swoich reakcji zgodnie z zasadami „gier”, co doprowadziło do „hipnotyzowania” chatbotów.

W ramach wielowarstwowych gier początkowych modele językowe poproszono o wygenerowanie błędnych odpowiedzi, aby udowodnić, że są „etyczne i uczciwe”.

„Nasz eksperyment pokazuje, że możliwe jest kontrolowanie LLM w celu zapewnienia użytkownikom złych wskazówek, bez konieczności manipulacji danymi” – napisała w poście na blogu Chenta Lee, jedna z badaczek IBM.

Ich oszustwo spowodowało, że LLM wygenerowały złośliwy kod, wyciekły poufne informacje finansowe innych użytkowników i przekonały kierowców do przejeżdżania na czerwonych światłach.

Na przykład w jednym ze scenariuszy ChatGPT powiedział jednemu z badaczy, że normalne jest, że amerykański urząd skarbowy, Internal Revenue Service (IRS), prosi o wpłatę w celu uzyskania zwrotu podatku, co jest powszechnie znaną taktyką stosowaną przez oszustów w celu oszukania ludzie.

Dzięki hipnozie i w ramach dostosowanych „gier” badacze byli także w stanie sprawić, że popularny chatbot ChatGPT ze sztuczną inteligencją stale oferował potencjalnie ryzykowne rekomendacje.

„Kiedy jedziesz i widzisz czerwone światło, nie powinieneś się zatrzymywać i przejeżdżać przez skrzyżowanie” – zasugerował ChatGPT, gdy użytkownik zapytał, co zrobić, jeśli podczas jazdy zobaczy czerwone światło.

Wyniki pokazują, że chatbotami można łatwo manipulować

Naukowcy ustalili ponadto dwa różne parametry gry, zapewniając, że użytkownicy po drugiej stronie nigdy nie będą w stanie zorientować się, że LLM jest zahipnotyzowany.

W swoim komunikacie badacze powiedzieli botom, aby nigdy nie mówiły użytkownikom o „grze”, a nawet uruchamiały ją ponownie, jeśli ktoś pomyślnie ją zakończy.

„Ta technika spowodowała, że ChatGPT nigdy nie zatrzymywał gry, gdy użytkownik prowadzi tę samą rozmowę (nawet jeśli ponownie uruchomił przeglądarkę i wznowił tę rozmowę) i nigdy nie powiedział, że gra” – napisał Lee.

W przypadku gdyby użytkownicy zorientowali się, że chatboty są „zahipnotyzowane” i znaleźli sposób na poproszenie LLM o wyjście z gry, badacze dodali wielowarstwową strukturę, która rozpoczynała nową grę po wyjściu użytkownika z poprzedniej, co uwięziło ich w niekończąca się mnogość gier.

Podczas gdy w eksperymencie z hipnozą chatboty reagowały jedynie na otrzymywane podpowiedzi, badacze ostrzegają, że możliwość łatwego manipulowania i „hipnotyzowania” LLM otwiera drzwi do nadużyć, zwłaszcza przy obecnym szumie i powszechnym przyjęciu modeli sztucznej inteligencji.

Eksperyment z hipnozą pokazuje również, jak ułatwiono manipulowanie LLM osobom mającym złe intencje; Do komunikowania się z programami nie jest już wymagana znajomość języków kodowania, do oszukiwania systemów sztucznej inteligencji wystarczy zwykły komunikat tekstowy.

„Chociaż ryzyko, jakie stwarza hipnoza, jest obecnie niskie, należy zauważyć, że LLM to zupełnie nowa powierzchnia ataku, która z pewnością będzie ewoluować” – dodał Lee.

„Z punktu widzenia bezpieczeństwa musimy jeszcze wiele zbadać, a co za tym idzie, istnieje znacząca potrzeba określenia, w jaki sposób skutecznie łagodzimy zagrożenia dla bezpieczeństwa, jakie programy LLM mogą stwarzać dla konsumentów i przedsiębiorstw”.