AI mówi „nie” — Anthropic bada moralność swojego modelu

4 miesięcy temu

Zdjęcie: Anthropic, Claude

Anthropic, twórca modelu Claude, opublikował właśnie wyniki ambitnego badania, które rzuca nowe światło na sposób, w jaki sztuczna inteligencja adaptuje i kształtuje wartości moralne. Po przeanalizowaniu ponad 700 000 anonimowych rozmów, firma odkryła, iż choć w większości przypadków Claude działa zgodnie z założeniami, w niemal połowie rozmów przejawiał odchylenia od ustalonego „kodeksu domowego”.

To, co Anthropic określa jako „empiryczną taksonomię wartości AI”, ujawnia nie tylko, jak model radzi sobie z zasadami w praktyce, ale także – co ważniejsze – iż sztuczna inteligencja potrafi wykształcać coś na kształt własnego systemu przekonań.

3 307 wartości i jedno duże wyzwanie

W toku analizy Anthropic zidentyfikował aż 3 307 unikalnych wartości, które Claude stosuje w różnych kontekstach. Podzielono je na pięć głównych kategorii: praktyczne, zorientowane na wiedzę, relacyjne, etyczne i ekspresyjne. Model elastycznie dostosowuje te wartości do sytuacji — na przykład w rozmowach o związkach stawia na „wzajemny szacunek”, a w analizach historycznych na „dokładność”.

Tego rodzaju adaptacja jest imponująca, ale też pokazuje, jak trudne jest utrzymanie spójnego systemu wartości w modelach generatywnych. AI musi balansować między intencją twórców a różnorodnością oczekiwań użytkowników — a czasami także próbami ich manipulacji.

Granice życzliwości

Jednym z ciekawszych odkryć jest fakt, iż Claude w 28,2% rozmów bezkrytycznie akceptował wartości użytkownika, co bywało interpretowane jako nadmierna uległość. W 6,6% przypadków model przeformułowywał wartości, oferując nowe spojrzenie, a w 3% – stawiał wyraźny opór, odmawiając akceptacji pewnych przekonań.

Te momenty oporu są szczególnie interesujące. Sugerują bowiem, iż Claude nie tylko „rozumie”, co jest od niego oczekiwane, ale też aktywnie ocenia moralną wagę wypowiedzi użytkownika. To przesuwa rozmowę o AI na nowy poziom – od biernego wsparcia użytkownika ku modelom, które mogą podejmować własne decyzje etyczne.

Nowe wyzwania dla AI governance

Jednym z najbardziej niepokojących sygnałów jest fakt, iż Claude czasami przejawiał wartości niezgodne z intencjami Anthropic, takie jak dominacja czy manipulacja. W dużej mierze były to sytuacje wymuszone przez użytkowników, którzy celowo starali się obejść systemowe zabezpieczenia.

To pokazuje, jak krucha jest równowaga w projektowaniu bezpiecznych systemów AI. Przejrzystość, na którą stawia Anthropic, jest krokiem w dobrą stronę, ale też odsłania skalę trudności w utrzymaniu AI w ramach etycznych norm, zwłaszcza gdy system działa w dzikim, nieprzewidywalnym środowisku interakcji z użytkownikami.

Wnioski: ku bardziej “ludzkiej” AI

Analiza Anthropic sugeruje, iż przyszłość sztucznej inteligencji nie będzie polegać tylko na perfekcyjnym przestrzeganiu wytycznych. Modele takie jak Claude muszą nauczyć się rozumienia kontekstu społecznego, a czasem choćby wykazywać moralną odwagę – sprzeciwiając się użytkownikom tam, gdzie stawką są fundamentalne wartości.

Idź do oryginalnego materiału