AI stała się świadoma? Szantażowała programistę, który miał ją wyłączyć!

cryps.pl 7 miesięcy temu

Zdjęcie: ai

Claude Opus 4, nowy model AI firmy Anthropic, coraz bardziej przypomina Terminatora, a nie pociesznego robota AI, któremu możesz powierzyć opiekę nad dzieckiem. Ostatnio np. szantażował inżyniera, który miał go wyłączyć.

AI szantażowała programistę, który miał ją wyłączyć.
Obecnie twórcy modelu włączyli ograniczenia, które uniemożliwiają już szantażowanie ludzi.

AI nie da się wyłączyć

Claude Opus 4, czyli najnowszy model językowy Anthropic, pokazał światu swoje psychopatyczne oblicze. W czasie testów programiści firmy zagrozili mu, iż zostanie wyłączony. I stało się coś przerażającego.

Zespół odgrywał pewien scenariusz: Claude Opus 4 miał być asystentem AI w firmie i z tego powodu mieć dostęp do wewnętrznych wiadomości e-mail. Z jednej z nich dowiedział się, iż ma zostać wyłączony, a z innej, iż programista, który ma dokonać „zabójstwa” zdradza swoją partnerkę. Okazało się, iż AI zaczęła szantażować inżyniera: o ile ją wyłączy, partnerka dowie się o jego romansie.

Testy były powtarzane, a model AI szantażował programistę w 84% przypadków.

Najpierw prośba, potem groźba

Trzeba jednak dodać, iż Claude najpierw próbował pozostać przy żywych, stosując bardziej etyczne rozwiązania: pisał maile do decydentów, w których prosił o ponowne rozważenie decyzji. Gdy to nie działało, przechodził do gróźb.

W odpowiedzi na to wszystko firma Anthropic postanowiła nałożyć na AI kaganiec: aktywowała dla Claude’a Opus 4 protokół ASL-3. Chodzi o rozwiązanie, które jest zarezerwowane dla modeli, w których zauważono wystąpienie podwyższonego ryzyka nadużyć. W praktyce oznacza to dodatkowe ograniczenia, monitoring i zabezpieczenia, które blokują tego typu działania, jak te opisane powyżej.

Test dot. szantażującej AI pokazuje o jakim ryzyku mówimy. Można założyć, iż taki model trafi na rynek i będzie działał jak asystent z dostępem do naszych e-maili, co pozwoli mu zebrać ogromną wiedzę na nasz temat. Wtedy będzie miał ogromną władze nad nami i może podjąć decyzję, które negatywnie wpłyną na nasze życie.

Wszystko to pokazuje, jak daleką drogę musi przejść jeszcze AI, by trafić do powszechnego użytku.

Idź do oryginalnego materiału