AI stała się świadoma? Szantażowała programistę, który miał ją wyłączyć!

cryps.pl 4 godzin temu
Zdjęcie: ai


Claude Opus 4, nowy model AI firmy Anthropic, coraz bardziej przypomina Terminatora, a nie pociesznego robota AI, któremu możesz powierzyć opiekę nad dzieckiem. Ostatnio np. szantażował inżyniera, który miał go wyłączyć.


  • AI szantażowała programistę, który miał ją wyłączyć.
  • Obecnie twórcy modelu włączyli ograniczenia, które uniemożliwiają już szantażowanie ludzi.

AI nie da się wyłączyć

Claude Opus 4, czyli najnowszy model językowy Anthropic, pokazał światu swoje psychopatyczne oblicze. W czasie testów programiści firmy zagrozili mu, iż zostanie wyłączony. I stało się coś przerażającego.

Zespół odgrywał pewien scenariusz: Claude Opus 4 miał być asystentem AI w firmie i z tego powodu mieć dostęp do wewnętrznych wiadomości e-mail. Z jednej z nich dowiedział się, iż ma zostać wyłączony, a z innej, iż programista, który ma dokonać „zabójstwa” zdradza swoją partnerkę. Okazało się, iż AI zaczęła szantażować inżyniera: o ile ją wyłączy, partnerka dowie się o jego romansie.

Testy były powtarzane, a model AI szantażował programistę w 84% przypadków.

Najpierw prośba, potem groźba

Trzeba jednak dodać, iż Claude najpierw próbował pozostać przy żywych, stosując bardziej etyczne rozwiązania: pisał maile do decydentów, w których prosił o ponowne rozważenie decyzji. Gdy to nie działało, przechodził do gróźb.

W odpowiedzi na to wszystko firma Anthropic postanowiła nałożyć na AI kaganiec: aktywowała dla Claude’a Opus 4 protokół ASL-3. Chodzi o rozwiązanie, które jest zarezerwowane dla modeli, w których zauważono wystąpienie podwyższonego ryzyka nadużyć. W praktyce oznacza to dodatkowe ograniczenia, monitoring i zabezpieczenia, które blokują tego typu działania, jak te opisane powyżej.

Test dot. szantażującej AI pokazuje o jakim ryzyku mówimy. Można założyć, iż taki model trafi na rynek i będzie działał jak asystent z dostępem do naszych e-maili, co pozwoli mu zebrać ogromną wiedzę na nasz temat. Wtedy będzie miał ogromną władze nad nami i może podjąć decyzję, które negatywnie wpłyną na nasze życie.

Wszystko to pokazuje, jak daleką drogę musi przejść jeszcze AI, by trafić do powszechnego użytku.

Idź do oryginalnego materiału