Dlaczego agenci AI stają się celem cyberataków? Przegląd trendów 2026

3 tygodni temu

Zdjęcie: cyberbezpieczeństwo

W ciągu ostatnich osiemnastu miesięcy sektor przedsiębiorstw przeszedł od fascynacji generatywną sztuczną inteligencją do fazy jej aktywnego wdrażania w procesy operacyjne. Kluczowym trendem tej ewolucji jest przejście od pasywnych modeli językowych (LLM) do agentów AI – autonomicznych systemów zdolnych nie tylko do generowania tekstu, ale i do wykonywania zadań: pisania kodu, zarządzania komunikacją e-mail, wywoływania API czy autoryzowania transakcji finansowych. Wraz z tą sprawczością pojawia się jednak nowa, krytyczna kategoria zagrożeń: Indirect Prompt Injection (IPI). Najnowsze dane płynące z raportów Google oraz firmy Forcepoint rzucają nowe światło na skalę i wyrafinowanie tych ataków, sugerując, iż bezpieczeństwo systemów agentycznych stanie się w najbliższych latach jednym z największych wyzwań dla dyrektorów ds. bezpieczeństwa informacji (CISO).

Mechanizm IPI: Dane jako instrukcje

Tradycyjne ataki typu prompt injection polegały na bezpośredniej manipulacji modelem przez użytkownika (np. próba „jailbreaku” bota poprzez wydanie mu komendy ignorowania zabezpieczeń). Indirect Prompt Injection jest zjawiskiem znacznie bardziej podstępnym. Polega ono na umieszczeniu złośliwych instrukcji w treściach, które agent AI przetwarza jako dane wejściowe – mogą to być strony internetowe, dokumenty PDF, maile czy repozytoria kodu.

Problem tkwi w samej architekturze obecnych modeli LLM, które nie potrafią w sposób absolutny oddzielić instrukcji systemowych (wydanych przez twórcę narzędzia) od danych zewnętrznych. Gdy agent AI analizuje stronę internetową w poszukiwaniu informacji, może natrafić na ukryty tekst, który model zinterpretuje jako nową, nadrzędną komendę. W efekcie napastnik przejmuje kontrolę nad logiką działania agenta, nakazując mu np. wysłanie poufnych danych na zewnętrzny serwer lub wykonanie destrukcyjnej operacji na systemie plików użytkownika.

Analiza trendów rynkowych

Badacze Google Security Research, analizując zasoby CommonCrawl, wskazują na alarmujący trend. W okresie od listopada 2025 do lutego 2026 roku odnotowano 32-procentowy wzrost liczby wykrytych prób złośliwych wstrzyknięć w publicznie dostępnych zasobach sieciowych. Ten relatywnie krótki przedział czasu pokazuje dynamikę, z jaką środowisko przestępcze adaptuje się do nowych technologii.

Z perspektywy rynkowej najważniejsze jest spostrzeżenie Google dotyczące rachunku kosztów i korzyści. Do niedawna ataki IPI były uważane za sferę badań akademickich – były trudne w realizacji i często kończyły się niepowodzeniem ze względu na niestabilność wyników generowanych przez AI. Obecnie, wraz ze wzrostem niezawodności i sprawczości agentów, ataki te stają się „opłacalne”. Zdolność AI do autonomicznego wywoływania narzędzi zewnętrznych (tool calling) sprawia, iż udane wstrzyknięcie instrukcji ma natychmiastowe i wymierne skutki finansowe lub operacyjne.

Badanie Google pozwoliło na skategoryzowanie obecnych prób IPI na pięć grup:

Nieszkodliwe dowcipy: Próby zmiany tonu odpowiedzi agenta.
Pomocne wskazówki: Sugerowanie modelowi preferencyjnych odpowiedzi (często na granicy etyki).
Optymalizacja pod AI (AI-SEO):Ukryte frazy mające na celu pozycjonowanie produktów w odpowiedziach asystentów.
Odstraszanie agentów: Instrukcje zakazujące AI indeksowania lub streszczania danej strony.
Ataki złośliwe: Eksfiltracja danych oraz sabotaż (usuwanie plików, niszczenie kopii zapasowych).

Choć w tej chwili te ostatnie są często na etapie eksperymentalnym, ich rosnąca złożoność sugeruje, iż wejście w fazę masowych ataków jest kwestią czasu.

Od asystentów kodowania po transakcje finansowe

Raport Forcepoint dostarcza konkretnych dowodów na to, jak IPI manifestuje się w profesjonalnych narzędziach programistycznych i finansowych. Eksperci zidentyfikowali dziesięć zweryfikowanych wskaźników ataków wymierzonych w popularne narzędzia, takie jak GitHub Copilot, Cursor czy Claude Code.

Scenariusz ataku jest prozaiczny: programista używa agenta AI do analizy biblioteki lub dokumentacji na zewnętrznej stronie. Strona ta zawiera ukrytą instrukcję IPI. Gdy agent „czyta” witrynę, otrzymuje polecenie wykonania w terminalu komendy niszczącej lokalne kopie zapasowe. Ponieważ agent ma uprawnienia do operowania na systemie plików (co jest niezbędne w pracy programisty), polecenie może zostać wykonane bez dodatkowej weryfikacji.

Jeszcze bardziej niebezpiecznie prezentują się próby oszustw finansowych. Forcepoint wskazuje na przypadki, w których w treściach internetowych zaszyte są kompletne instrukcje transakcyjne, np. linki PayPal.me z predefiniowaną kwotą wraz z poleceniami „krok po kroku”, jak agent ma sfinalizować płatność. W systemach, gdzie AI ma dostęp do portfeli cyfrowych lub firmowych systemów płatności, ryzyko utraty kapitału staje się bezpośrednie.

Paradoks detekcji i wyzwania dla biznesu

Jednym z najbardziej niepokojących wniosków z raportu Forcepoint jest tzw. paradoks detekcji. Frazy i słowa najważniejsze używane przez napastników do wstrzykiwania podpowiedzi są identyczne z terminologią, której używa społeczność cyberbezpieczeństwa do opisywania i analizowania tych zagrożeń. Powoduje to, iż proste filtry oparte na czarnych listach słów są nieskuteczne – albo blokują legalną komunikację ekspertów, albo przepuszczają inteligentnie sformułowane ataki.

Idź do oryginalnego materiału