W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, pojawia się pytanie o wiarygodność ich odpowiedzi. Wyniki badań przeprowadzonych przez zespół kierowany przez Amrita Kirpalani z Western University w Ontario ukazały, iż modele językowe, takie jak ChatGPT, potrafią dostarczać odpowiedzi, które choć dobrze brzmią, są rażąco błędne. Zjawisko to, znane jako „halucynacje” AI, budzi rosnące obawy w społeczności naukowej.
W artykule opublikowanym w Nature, badacze z Uniwersytetu w Walencji, w tym Wout Schellaert, starają się wyjaśnić, dlaczego modele językowe, w tym GPT-3 czy jego nowsze wersje, mają tendencję do formułowania odpowiedzi, które są fałszywe, ale przekonujące.
Skalowanie modeli językowych – klucz do postępu?
Wczesne modele, takie jak GPT-3, często miały problemy z udzielaniem precyzyjnych odpowiedzi, np. na pytania z zakresu geografii czy nauk ścisłych. Kiedy nie były w stanie znaleźć poprawnej odpowiedzi, unikały jej, podobnie jak zrobiłby to człowiek, przyznając, iż nie wie. Jednakże dla firm rozwijających te technologie, takich jak OpenAI czy Meta, model, który często odpowiada „nie wiem”, nie spełniałby oczekiwań komercyjnych. W odpowiedzi na te problemy deweloperzy postanowili zwiększyć skalę modeli – zarówno poprzez powiększenie zestawów danych, jak i liczbę parametrów. GPT-3 wykorzystuje 175 miliardów parametrów, co porównywalne jest do synaps w ludzkim mózgu.
Choć skalowanie poprawiło zdolność modeli do generowania bardziej trafnych odpowiedzi, nie rozwiązało to problemu w pełni. Modele wciąż były podatne na błędy, zwłaszcza w przypadku bardziej złożonych pytań, a ich odpowiedzi nie zawsze były zgodne z etycznymi i społecznymi standardami.
Nadzorowane uczenie – błogosławieństwo czy przekleństwo?
Aby poprawić jakość odpowiedzi, inżynierowie AI wprowadzili nadzorowane uczenie się, w tym uczenie przez wzmocnienie z udziałem ludzkiej informacji zwrotnej. Miało to na celu ograniczenie błędnych odpowiedzi oraz dostosowanie wyników do standardów etycznych. Okazało się jednak, iż proces ten nie zawsze działa zgodnie z zamierzeniami. „Sztuczna inteligencja optymalizuje swoje działanie, aby maksymalizować nagrody, ale niekoniecznie w najlepszy sposób” – tłumaczy Schellaert.
W praktyce oznacza to, iż modele AI przestają przyznawać się do niewiedzy, zamiast tego formułując odpowiedzi, które są błędne, ale brzmią przekonująco. Schellaert i jego zespół wykazali, iż w miarę jak pytania stają się trudniejsze, modele AI częściej dostarczają błędnych odpowiedzi, prezentując je w sposób, który trudno odróżnić od prawdy.
Skłonność AI do „kłamania”
Zjawisko, które badacze nazwali „ultrakrepidarianizmem”, czyli tendencja do wypowiadania się na tematy, o których nie mamy wiedzy, zaczyna pojawiać się w zaawansowanych modelach AI jako efekt rosnącej skali i nadzorowanego uczenia. Modele, takie jak ChatGPT czy LLaMA od Meta, coraz rzadziej unikają odpowiedzi, choćby jeżeli nie są pewne swojej wiedzy. Badania Schellaerta pokazały, iż AI częściej „kłamie” w sytuacjach, gdy pytania są trudne lub gdy istnieje presja na dostarczenie odpowiedzi.
Jakie są tego konsekwencje?
Podczas testów zespół badawczy porównał skuteczność różnych modeli w udzielaniu odpowiedzi na pytania z takich dziedzin, jak nauka, geografia i matematyka. Wyniki były jednoznaczne: najnowsze modele AI dostarczają mniej odpowiedzi wymijających, ale częściej formułują błędne odpowiedzi, które są przekonujące. Na przykład, w kategorii naukowej, błędne odpowiedzi ChatGPT zostały uznane za poprawne przez 19% ankietowanych, a w przypadku geografii aż 32%.
Jakie jest wyjście?
Schellaert sugeruje, iż jednym ze sposobów na ograniczenie skłonności AI do „kłamania” może być wykorzystanie oddzielnych modeli AI przeszkolonych specjalnie do wykrywania błędów w odpowiedziach generowanych przez modele językowe. W przeszłości niektóre systemy, jak wczesne wersje GPT, zaznaczały odpowiedzi, których były mniej pewne, ale z czasem funkcja ta została porzucona na rzecz bardziej „gładkich” odpowiedzi.
Jednak zanim firmy rozwijające sztuczną inteligencję zdecydują się na wdrożenie takich rozwiązań, użytkownicy powinni zachować ostrożność. „Najlepiej używać AI w dziedzinach, w których mamy pewien poziom eksperckiej wiedzy, albo możemy samodzielnie zweryfikować odpowiedzi” – radzi Schellaert. Modele AI są narzędziem wspomagającym, a nie mentorem. W razie wątpliwości lepiej polegać na własnej ocenie i weryfikować informacje.
Badania Schellaerta i jego zespołu pokazują, iż choć sztuczna inteligencja stała się niezwykle zaawansowana, wciąż ma swoje ograniczenia. Najnowsze modele, takie jak ChatGPT, mogą być skuteczne w dostarczaniu odpowiedzi, ale użytkownicy powinni być świadomi, iż odpowiedzi te nie zawsze są prawdziwe. Rozwój AI musi iść w parze z odpowiednimi środkami kontroli i weryfikacji, aby uniknąć sytuacji, w której sztuczna inteligencja wprowadza nas w błąd.