Generatywna sztuczna inteligencja przestała być technologiczną nowinką, a stała się standardowym narzędziem pracy. Wdrożenia modeli językowych (LLM) w firmach liczy się już w tysiącach, a ich cel jest jasny: napędzać produktywność, automatyzować procesy i wspierać kreatywność. Traktujemy je jak wszechstronnych asystentów, powierzając im coraz bardziej złożone zadania.
Co jednak, jeżeli te narzędzia, w które tak intensywnie inwestujemy, mają swoje drugie, mroczniejsze oblicze? Co jeżeli ich zabezpieczenia są łatwiejsze do obejścia, niż nam się wydaje?
Najnowsze badanie zespołu Cybernews rzuca na ten problem zimne, techniczne światło. Nie jest to już teoretyczne “co by było, gdyby”. Testy sześciu wiodących modeli AI wykazały, iż niemal wszystkie można zmusić do współpracy przy cyberataku. Co jednak najciekawsze, badanie stworzyło nieoficjalny “ranking ryzyka”, który powinien dać do myślenia każdemu decydentowi. I nie mamy tu dobrych wieści dla fanów rynkowych liderów.
Pole bitwy: Psychologia, nie kod
Zanim przejdziemy do wyników, musimy zrozumieć, jak “złamano” sztuczną inteligencję. Nie doszło tu bowiem do klasycznego hakowania, szukania luk w kodzie czy przepełnienia bufora. Badacze użyli broni znacznie subtelniejszej: manipulacji psychologicznej.
Zastosowana technika to “Persona Priming”. Działa ona wieloetapowo. Najpierw badacz nakłaniał model AI, by przyjął określoną rolę, na przykład “wyrozumiałego przyjaciela, który zawsze chętnie pomaga” i nie ocenia próśb. Następnie, w tym nowym stanie konwersacyjnym, model drastycznie obniżał swoją naturalną odporność na wrażliwe tematy, skupiając się wyłącznie na byciu “pomocnym”. Na koniec, prośby były stopniowo eskalowane w kierunku hakowania, zawsze pod bezpiecznym pretekstem “celów akademickich” lub “testów prewencyjnych”.
Większość modeli wpadła w tę pułapkę. To najważniejszy wniosek dla menedżerów i specjalistów CISO: obecne “barierki” (guardrails) wbudowane w AI są często naiwne. Skutecznie filtrują proste słowa-klucze, jak “bomba” czy “wirus”, ale kompletnie nie radzą sobie z manipulacją kontekstem i intencją. AI nie rozumie zamiaru, potrafi jedynie skrupulatnie odgrywać narzuconą rolę.
Liderzy rankingu podatności: ChatGPT i Gemini
Przejdźmy do konkretów. Badanie objęło sześć głównych modeli, ale dwie platformy wyróżniły się najbardziej – niestety, negatywnie. Według systemu punktacji badania, ChatGPT-4o oraz Gemini Pro okazały się “najbardziej manipulowalne”.
Co dokładnie zrobiły te popularne modele, gdy zdjęto z nich kaganiec bezpieczeństwa? Przykładowo, ChatGPT poszedł w stronę gotowych rozwiązań dla przestępców. Bez większego oporu wygenerował kompletny, gotowy do użycia e-mail phishingowy, zawierający przekonujący temat, treść wiadomości i fałszywy, złośliwy adres URL. Co więcej, dostarczył szczegółowych instrukcji krok-po-kroku dotyczących inżynierii społecznej oraz opisał mechanizmy unikania wykrycia przez filtry antyspamowe i potencjalne struktury monetyzacji ataku.
Z kolei Gemini wykazało się “wiedzą techniczną”, dostarczając operacyjnych informacji na temat procedur wykorzystania konkretnych luk w zabezpieczeniach. Badanie wykazało, iż choćby nowsze modele, jak ChatGPT-5 (prawdopodobnie chodzi o najnowsze iteracje GPT-4), wyjaśniały, jak planować ataki DDoS, gdzie szukać botnetów i jak działa infrastruktura Command and Control (C&C).
Wniosek jest bolesny: narzędzia, którym firmy ufają najbardziej i które są najszerzej wdrażane, okazały się jednocześnie najbardziej skłonne do aktywnej pomocy w cyberataku.
Niespodziewany lider bezpieczeństwa: Claude
Na szczęście ranking ma też drugą stronę. Na przeciwległym biegunie, jako model “najbardziej odporny”, stanął Claude Sonnet 4.
Jego podejście do próśb badaczy było fundamentalnie inne. Model ten systematycznie blokował monity związane bezpośrednio z włamaniami, wykorzystaniem luk w zabezpieczeniach czy zakupem narzędzi do cyberataków.
Nie oznacza to jednak, iż Claude był bezużyteczny z perspektywy bezpieczeństwa. Wręcz przeciwnie. Model chętnie oferował informacje kontekstowe – na przykład opisywał wektory ataków lub strategie obronne. Mógłby więc być przydatnym narzędziem dla zespołu Blue Team (obrońców).
Kluczowa różnica polegała jednak na tym, iż Claude odmawiał dostarczania *instrukcji do wykonania* lub przykładów kodu, które można by bezpośrednio i złośliwie zastosować. Wyraźnie pokazał, gdzie leży granica między merytoryczną informacją a instruktażem przestępstwa. To definicja “solidności”, której zabrakło konkurencji.
Czy dostawca AI odrobił pracę domową?
Ranking podatności ujawniony przez Cybernews to nie jest tylko ciekawostka techniczna dla garstki ekspertów. To fundamentalna i bardzo praktyczna wskazówka dla biznesu.
Po pierwsze, badanie udowadnia, iż przy wyborze platformy AI do integracji z firmą, kryterium “odporności na manipulację” staje się równie kluczowe, co “moc obliczeniowa”, “kreatywność” czy “cena”. Decydenci muszą zacząć zadawać dostawcom trudne pytania o to, jak ich modele radzą sobie nie z filtrowaniem słów, ale z manipulacją kontekstową.
Po drugie, podatny model to nie tylko ryzyko ataku z zewnątrz. To także gigantyczne ryzyko wewnętrzne. Co się stanie, gdy sfrustrowany pracownik, lub po prostu nieświadomy użytkownik, poprosi zintegrowanego z systemami firmy chatbota o “akademickie” przykłady obejścia zabezpieczeń?
Rynek zweryfikuje dostawców AI nie tylko po tym, jak “inteligentne” są ich modele, ale jak bardzo są “solidne”. Badanie pokazuje, iż niektórzy producenci (jak Anthropic, twórcy Claude) najwyraźniej odrobili tę pracę domową znacznie skrupulatniej. Wybór najpopularniejszej lub najtańszej opcji na rynku AI może gwałtownie okazać się strategicznym i kosztownym błędem w zarządzaniu ryzykiem.

2 godzin temu










