„Nierzetelny asystent badawczy”: według raportu fałszywe dane wyjściowe chatbotów AI stanowią zagrożenie dla nauki

Badacze z Oksfordu ostrzegają, że chatboty AI stanowią zagrożenie dla nauki.

Duże modele językowe (LLM), takie jak ChatGPT i Bard, mogą stanowić zagrożenie dla nauki z powodu fałszywych odpowiedzi, twierdzą badacze sztucznej inteligencji z Oksfordu w nowym artykule, w którym nalegają, aby ograniczyć ich wykorzystanie w badaniach naukowych.

LLM to modele głębokiego uczenia się, które napędzają chatboty oparte na sztucznej inteligencji (AI) i są w stanie generować tekst przypominający tekst ludzki.

Naukowcy z Oxford Internet Institute twierdzą, że ludzie zbytnio ufają tym modelom i postrzegają je jako zasób podobny do ludzkiego.

„Po części wynika to z zaprojektowania LLM jako pomocnych, brzmiących jak ludzie agentów, którzy rozmawiają z użytkownikami i odpowiadają na pozornie każde pytanie za pomocą pewnie brzmiącego, dobrze napisanego tekstu” – Brent Mittelstadt, dyrektor ds. badań w Oxford Internet Institute – napisano w oświadczeniu.

„Dzięki temu użytkownicy mogą łatwo zostać przekonani, że odpowiedzi są dokładne, nawet jeśli nie mają podstaw w faktach lub przedstawiają stronniczą lub częściową wersję prawdy” – stwierdził.

Jednak LLM nie gwarantują dokładnych odpowiedzi i mogą dawać fałszywe informacje pochodzące z danych szkoleniowych lub mogą generować fałszywe informacje (tzw. halucynacje), podczas gdy ton wyników pozostaje przekonujący dla użytkownika.

Dlaczego badacze nie powinni ufać LLM?

Chociaż wiele odpowiedzi od chatbotów będzie dokładnych, nie ma żadnej gwarancji, a zbiory danych używane do uczenia tych modeli sztucznej inteligencji mogą powodować fałszywe wyniki.

Na przykład, jeśli zbiory danych, które często pochodzą z treści w Internecie, zawierają „fałszywe stwierdzenia, opinie, dowcipy, kreatywne teksty”, jak twierdzą badacze, może to prowadzić do błędnych wyników.

Innym problemem jest to, że LLM notorycznie ukrywają swoje zbiory danych.

W toku dochodzenia dziennik „Washington Post” ujawnił na przykład, że zbiór danych Barda – drugi pod względem popularności po ChatGPT – obejmował różne fora internetowe, osobiste blogi i witryny poświęcone rozrywce, takie jak Screenrant.

W przypadku Mittelstadta głównym problemem nie są bardzo oczywiste halucynacje, ale raczej wyniki, które są „nieco błędne lub stronnicze, lub w przypadku których potrzebna jest specjalistyczna wiedza, aby stwierdzić, że coś jest nie tak” – powiedział TylkoGliwice Next.

Może tak być na przykład w przypadku odniesień do artykułów naukowych.

„Jednym z największych problemów jest to, że wymyślą całkowicie odniesienia, a jeśli nie wrócisz i nie poszukasz odniesień, nie zorientujesz się, że jest to w rzeczywistości całkowicie sfabrykowany artykuł. Albo odniesienie może być właściwe, ale może dać przekazujecie błędne informacje na temat tego, co pisze gazeta” – stwierdził.

„Patrzę na ChatGPT i modele językowe jako na bardzo zawodnego asystenta badawczego. Więc wszystko, co mi powie, zawsze będę sprawdzał fakty i zawsze upewniam się, że to prawda” – dodał.

Jakie są rozwiązania?

ChatGPT ostrzega użytkowników, że chatbot może podawać niedokładne informacje.

Jednak badacze zalecają używanie modelu dużego języka nie jako „bazy wiedzy”, ale raczej jako „tłumacza zerowego”.

„Ma to miejsce wtedy, gdy dajesz modelowi zestaw danych wejściowych zawierających pewne wiarygodne informacje lub dane, a także prośbę o zrobienie czegoś z tymi danymi. Nazywa się to tłumaczeniem zero-shot, ponieważ model nie został specjalnie przeszkolony do radzenia sobie z tego typu podpowiedziami” – powiedział Mittelstadt.

Oznaczałoby to przepisanie tekstu na bardziej przystępny język, „nadzorowanie danych” lub „tłumaczenie danych z jednego formatu na inny”.

„Sposób wykorzystania LLM ma znaczenie. W społeczności naukowej niezwykle ważne jest, abyśmy mieli zaufanie do informacji opartych na faktach, dlatego ważne jest odpowiedzialne korzystanie z LLM. Wykorzystywanie LLM do generowania i rozpowszechniania artykułów naukowych może spowodować poważne szkody” – stwierdziła Sandra Wachter, współautorka badania.

Naukowcy z Oksfordu nie są jedynymi, którzy twierdzą, że potrzebne są poręcze, jeśli chodzi o wykorzystanie ChatGPT w nauce.

Nature, wiodąca publikacja naukowa na świecie, zdecydowała na początku roku, że „żadne narzędzie LLM nie zostanie zaakceptowane jako uznany autor artykułu badawczego” jako kwestię związaną z odpowiedzialnością.

Ponadto publikacja wymagała od autorów ujawnienia w części artykułu zastosowania modelu dużego języka.