W 2023 roku w korytarzach technologicznego giganta, firmy Samsung, rozegrał się cichy dramat. Nie był to atak hakerski z zewnątrz, ale wewnętrzna porażka o ogromnych konsekwencjach.
Inżynierowie, w pogoni za wydajnością, wkleili fragmenty poufnego kodu źródłowego bezpośrednio do publicznie dostępnego modelu ChatGPT. Nieświadomie przekazali klejnoty koronne firmy zewnętrznemu podmiotowi, tworząc podręcznikowy przykład nowego rodzaju zagrożenia wewnętrznego – nieintencjonalnego, ale równie niszczycielskiego.
Ten incydent obnaża fundamentalną prawdę ery sztucznej inteligencji.
Podczas gdy zarządy i działy IT koncentrują się na budowie technologicznych fortec, prawdziwe pole bitwy o bezpieczeństwo AI przeniosło się do wnętrza organizacji.
Największe ryzyka nie leżą już w wyrafinowanym kodzie, ale w trzech kluczowych interakcjach człowieka z maszyną: w danych, którymi ją karmimy, w sposobie, w jaki jej używamy, i w ślepym zaufaniu, jakim ją obdarzamy.
Każdy model AI jest lustrzanym odbiciem danych, na których go wytrenowano. Zasada “śmieci na wejściu, śmieci na wyjściu” zyskuje w tym kontekście nową, potężną moc. Algorytmy nie są obiektywnymi sędziami; są historykami, którzy bezkrytycznie powielają wzorce z przeszłości.
Trenowane na danych odzwierciedlających dekady społecznych uprzedzeń, stają się narzędziem ich utrwalania na masową skalę.
Głośna sprawa Apple Card, badanej w 2019 roku pod kątem dyskryminacji ze względu na płeć przy przyznawaniu limitów kredytowych, doskonale to ilustruje.
Problem nie leżał w złośliwej intencji programistów, ale w historycznych danych finansowych, które system uznał za obiektywną prawdę, prowadząc do ryzyka prawnego i strat wizerunkowych. Problem danych wejściowych ma jednak również drugie, znacznie mroczniejsze oblicze – celowy sabotaż.
Poprzez zatruwanie danych (data poisoning) osoba z wewnątrz lub zewnętrzny aktor może dyskretnie wprowadzić do zbioru treningowego zmanipulowane informacje.
Wyobraźmy sobie system prognozujący popyt w sieci handlowej, którego dane zostały zatrute przez konkurenta. Model, uszkodzony od środka, zaczyna systematycznie zamawiać zły towar do złych lokalizacji, paraliżując logistykę firmy na całe miesiące.
Nawet jeżeli dane wejściowe są czyste, firmy stają przed kolejnym wyzwaniem: pracownikiem jako nieświadomym sabotażystą. Organizacje wdrażają potężne narzędzia AI, często nie dostarczając pracownikom klarownej “instrukcji obsługi” w zakresie bezpieczeństwa.
Przyzwyczajeni do wygody wyszukiwarek, pracownicy traktują publiczne modele językowe jak wszechwiedzących, dyskretnych asystentów. Syndrom “po prostu zapytam AI” prowadzi do wklejania do nich fragmentów kodu, strategii marketingowych, analiz finansowych czy danych klientów, by poprawić, streścić lub przeanalizować tekst.
Pogoń za produktywnością bez zrozumienia technologii prowadzi do natychmiastowej i nieodwracalnej utraty własności intelektualnej.
Co więcej, choćby wewnętrzne, rzekomo bezpieczne modele, mogą zostać oszukane. Techniki takie jak prompt injection, będące formą socjotechniki nowej generacji, pozwalają dzięki sprytnie sformułowanych poleceń zmusić model do zignorowania jego instrukcji bezpieczeństwa i ujawnienia wrażliwych informacji, które “zapamiętał” z innych rozmów.
Najbardziej podstępne ryzyko pojawia się jednak na końcu tego łańcucha – na wyjściu. Polega ono na abdykacji człowieka z krytycznego myślenia i traktowaniu wyników AI jako nieomylnej wyroczni.
Modele potrafią generować całkowicie fałszywe informacje, znane jako “halucynacje”, z niezwykłą pewnością siebie i w bardzo przekonującym stylu.
Człowiek ma naturalną skłonność do ufania wynikom prezentowanym w sposób autorytatywny, zwłaszcza jeżeli pochodzą z systemu postrzeganego jako “inteligentny”. Słynna porażka systemu IBM Watson for Oncology jest tego tragicznym przykładem.
System, który miał rewolucjonizować leczenie raka, rekomendował niebezpieczne terapie, ponieważ był trenowany na ograniczonych, hipotetycznych danych.
W zautomatyzowanych systemach, na przykład zarządzających łańcuchem dostaw, ta dynamika prowadzi do kaskady błędów. Jeden błędny sygnał wyjściowy z modelu może wywołać efekt domina, prowadząc do serii katastrofalnych decyzji, zanim człowiek zdąży interweniować, co pokazała strata 500 milionów dolarów poniesiona przez firmę Zillow, której algorytm wpadł w pętlę błędnego przeszacowywania wartości nieruchomości.
Bezpieczeństwo sztucznej inteligencji nie jest więc wyłącznie problemem technicznym do rozwiązania przez inżynierów. To fundamentalne wyzwanie organizacyjne i kulturowe.
Skuteczna obrona wymaga strategii, która stawia człowieka w centrum. Niezbędne jest wdrożenie obowiązkowych, cyklicznych szkoleń, które budują kulturę “zdrowego sceptycyzmu” wobec AI.
Konieczne jest stworzenie żelaznych zasad dotyczących tego, jakie informacje mogą być wprowadzane do zewnętrznych modeli – domyślną regułą powinno być: “jeśli nie możesz tego opublikować na stronie głównej firmy, nie możesz tego wkleić do AI”.
Przede wszystkim jednak, w krytycznych procesach biznesowych, systemy muszą być projektowane tak, aby ostateczna decyzja zawsze należała do człowieka, a interfejs jasno komunikował poziom niepewności modelu.
W nadchodzącej dekadzie liderami rynku zostaną nie te firmy, które najszybciej wdrożą AI, ale te, które najmądrzej zintegrują ją ze swoim najważniejszym zasobem: krytycznie myślącymi ludźmi. Ostatecznym firewallem musi stać się świadomy pracownik.