Kac po euforii, czyli jak agenci AI mogą przepuścić roczny budżet w kilka godzin

2 godzin temu

Zdjęcie: Wydatki na IT, technologia, pieniądze

Jeszcze niedawno sztuczna inteligencja miała być „ostatecznym rozwiązaniem” problemów z produktywnością – cyfrowym alchemikiem zamieniającym puste przebiegi procesów w czyste złoto efektywności. Bal trwał w najlepsze, a szampan wylewał się z prezentacji obiecywanych przez dostawców modeli.

Jednak dziś, zamiast o kolejnych przełomach w rozumowaniu maszyn, w kuluarach konferencji biznesowych szepcze się o czymś znacznie mniej widowiskowym: o rachunku za szczęście. Okazuje się bowiem, iż bilet wstępu do świata AI nie był opłatą jednorazową, ale dynamicznym, trudnym do okiełznania abonamentem na przyszłość, którego koszt potrafi wzrosnąć wykładniczo w ciągu jednej nocy.

To, co obserwujemy, to narodziny „gorączki tokenów”. To stan, w którym entuzjazm inżynierów zderza się z przerażeniem dyrektorów finansowych. Przez dekady przyzwyczailiśmy się do modelu SaaS – przewidywalnych, stałych opłat za licencje, które można było łatwo wpisać w budżet. Generatywna AI zburzyła ten ład, wprowadzając model „probabilistyczny”. Tutaj błąd w logice jednego agenta lub zbyt wylewny prompt mogą spalić zasoby finansowe szybciej, niż tradycyjna infrastruktura chmurowa zużywa prąd.

Uber i błąd wart miliardy

Jeśli branża technologiczna szukała „kanarka w kopalni”, to w kwietniu 2026 roku znalazła go w San Francisco. Podczas konferencji IA HumanX, Praveen Neppalli Naga, CTO Ubera, wygłosił przemówienie, które otrzeźwiło choćby największych optymistów. Gigant, który w 2025 roku zainwestował w badania i rozwój astronomiczne 3,4 miliarda dolarów, stanął przed murem: roczny budżet na sztuczną inteligencję wyparował w zaledwie cztery miesiące.

To nie była kwestia jednej, błędnej decyzji inwestycyjnej, ale efekt uboczny inżynieryjnej fantazji pozbawionej hamulców. Uber, dążąc do agresywnej adopcji technologii, zachęcał swoich programistów do masowego korzystania z agentów takich jak Claude Code. Efekt? 11% kodu zaplecza generowała już sztuczna inteligencja, ale cena za tę „efektywność” okazała się zabójcza. Bez odpowiednich filtrów wydajności i nadzoru nad zużyciem tokenów, AI przestało być dźwignią oszczędności, a stało się niekontrolowanym silnikiem wydatków.

Przypadek Ubera to klasyczny przykład „tsunami tokenów”. Autonomiczni agenci, wchodząc w nieskończone pętle iteracji bez jasnych limitów, potrafią spalić fortunę w czasie potrzebnym na wypicie espresso. To bolesna lekcja dla wszystkich CIO: innowacja bez architektury finansowej to po prostu bardzo drogie hobby. Naga przyznał, iż firma musiała wrócić do stołu projektowego, by całkowicie przedefiniować swoją strategię. Każda firma, która dziś wdraża AI bez rygorystycznej analizy rentowności, ryzykuje, iż jej sukces będzie mierzony nie wzrostem marży, ale szybkością, z jaką wyczerpie własne zasoby.

Żegnaj SaaS, witaj zmienności

Żegnamy epokę, w której budżet IT był jak stały abonament na Netfliksa – przewidywalny, bezpieczny i dający złudne poczucie kontroli. Przez lata model SaaS przyzwyczaił nas do licencji per user, gdzie jedynym ryzykiem była nadmiarowość kont, których nikt nie używał. Generatywna sztuczna inteligencja brutalnie kończy ten okres „licencyjnego spokoju ducha”, wprowadzając model rozliczeń, który bardziej przypomina rachunki za prąd w czasie kryzysu energetycznego niż tradycyjne oprogramowanie.

Przejście z kosztów stałych na koszty zmienne to fundamentalna zmiana paradygmatu. W 2024 roku działy IT kupowały dostęp do AI w ryczałcie. Dziś, w 2026 roku, dostawcy tacy jak OpenAI czy Anthropic wyeliminowali nielimitowane plany Enterprise, wprowadzając dynamiczne rozliczanie za zużycie tokenów. Powód jest prozaiczny: agenci AI zniszczyli krzywą dystrybucji, na której opierał się stary biznes. Model subskrypcyjny działał tylko wtedy, gdy „leccy” użytkownicy dotowali tych „intensywnych”. Jedna, gdy zaczęliśmy zatrudniać autonomicznych agentów, różnice te stały się absurdalne. Analizy pokazują przypadki, w których użytkownik płacący 100 dolarów miesięcznie generował koszty rzędu 5600 dolarów w jednym cyklu rozliczeniowym. Współczynnik dotacji 25 do 1 to prosta droga do bankructwa dostawcy, stąd gwałtowny zwrot ku rozliczeniom „używasz – płacisz”.

To sprawia, iż wydatki na IT stały się probabilistyczne. To radykalnie odróżnia AI od tradycyjnej chmury. Zapomniany serwer w AWS generuje stały, liniowy koszt. Źle zaprojektowany prompt lub agent pozbawiony limitów iteracji może natomiast wejść w pętlę i wygenerować miliony bezużytecznych tokenów w kilka sekund. W tym nowym świecie błąd logiczny programisty nie kończy się na „wywaleniu” aplikacji – kończy się na drenażu konta firmowego z prędkością światła. Oznacza to konieczność natychmiastowego przeprojektowania finansów IT i porzucenia sztywnych ram budżetowych na rzecz elastycznego zarządzania „ekonomią wnioskowania”.

Tsunami tokenów – nowa jednostka ryzyka

W słowniku nowoczesnego CIO obok „długu technicznego” pojawił się nowy, znacznie bardziej drapieżny termin: „tsunami tokenów”. To zjawisko, w którym autonomiczni agenci, zamiast uwalniać czas pracowników, wpadają w pętle niekończących się iteracji, paląc budżet z intensywnością huty stali. Problem w tym, iż bot, w przeciwieństwie do człowieka, nigdy nie czuje zmęczenia ani wstydu z powodu powielania błędów – on po prostu konsumuje zasoby, dopóki nie napotka twardego limitu lub nie opróżni konta.

Skala problemu jest tak duża, iż choćby najwięksi gracze musieli zrewidować swoje dogmaty. Gartner bije na alarm: do końca 2027 roku aż 40% agentycznych projektów AI zostanie anulowanych. Powód? Nie brak wizji, ale brutalna matematyka – rosnące koszty przy jednoczesnym braku precyzyjnych narzędzi do pomiaru realnej wartości biznesowej.

Tutaj objawia się największy paradoks 2026 roku: jednostkowa cena za token systematycznie spada, ale całkowity rachunek rośnie. Agenci AI zużywają bowiem od 5 do choćby 30 razy więcej jednostek na jedno zadanie niż standardowy chatbot. To klasyczna pułapka skali – wydajność, która staje się nieefektywna ekonomicznie przez samą swoją objętość. jeżeli Twoja strategia AI opiera się jedynie na nadziei, iż „modele będą tańsze”, to właśnie budujesz zamek na piasku, który nadchodzące tsunami zmyje w jeden cykl rozliczeniowy. Bez rygorystycznej kontroli nad tym, co i po co procesują maszyny, nowoczesne IT staje się zakładnikiem własnej, niepohamowanej mocy obliczeniowej.

AI FinOps – nowa alchemia finansów IT

Jeśli myśleliście, iż Cloud FinOps był wyzwaniem, przygotujcie się na jazdę bez trzymanki. Tradycyjna optymalizacja chmury polegała na prostym rzemiośle: wyłączaniu nieużywanych serwerów i pilnowaniu rezerwacji instancji. AI FinOps to zupełnie inna dyscyplina – to zarządzanie zasobami probabilistycznymi, a nie deterministycznymi. Tutaj jednostką wydatków nie jest już roboczogodzina procesora, ale koszt użytecznej odpowiedzi w relacji do kosztu odpowiedzi błędnej lub „halucynowanej”.

W 2026 roku aż 98% zespołów FinOps uznaje wydatki na AI za swój priorytet numer jeden. Powód jest prosty: w tradycyjnej chmurze błąd techniczny rzadko prowadzi do wykładniczego wzrostu kosztów. W świecie agentów AI, źle skonfigurowana logika promptu może spalić budżet szybciej, niż zdążysz odświeżyć dashboard. To zmusza liderów IT do zdefiniowania nowej metryki – ekonomii wnioskowania. Nie liczymy już, ile kosztuje nas model, ale ile kosztuje nas sukces operacyjny uzyskany dzięki jego pracy.

A to oznacza konieczność przepisania pulpitów sterowniczych od zera. Klasyczne ramy zarządcze, takie jak ITIL 4 czy COBIT, choć dają solidną bazę, wymagają dziś natychmiastowych rozszerzeń o zarządzanie cyklem życia promptów czy limity iteracji agentów. AI FinOps to nie tylko tabelki w Excelu; to nowa filozofia zarządzania, gdzie inżynier musi myśleć jak ekonomista, a finansista musi rozumieć architekturę LLM. Bez tej synergii, kupowanie tokenów przypomina wlewanie paliwa rakietowego do dziurawego baku – efekt jest spektakularny, ale skrajnie krótkotrwały i przerażająco kosztowny.

Jak nie przepalić dekady innowacji

Okno czasowe na bezkarne błędy właśnie się zatrzasnęło. Aby uniknąć „tokenowego tsunami”, organizacje muszą przejść od fazy radosnej adaptacji do fazy rygorystycznej architektury. Pierwszym i najbardziej palącym krokiem jest przeprowadzenie audytu zużycia tokenów – nie ogólnego, ale precyzyjnego, z podziałem na konkretne zespoły i przypadki użycia. Gdy zapytanie do modelu może kosztować tyle co dobra kawa, musimy wiedzieć, kto zamawia podwójne espresso bez wyraźnej potrzeby biznesowej.

Kluczem do finansowego przetrwania jest wdrożenie trzech fundamentów technicznych:

RAG (Retrieval-Augmented Generation): Dostarczanie modelowi tylko tych danych, których faktycznie potrzebuje, drastycznie ograniczając „dietę” tokenową.
Modele specjalistyczne: Rezygnacja z „wszechwiedzących” gigantów na rzecz mniejszych, tańszych i precyzyjnie dotrenowanych modeli do powtarzalnych zadań.
Karta korporacyjna dla bota: Ustanowienie sztywnych limitów iteracji i budżetów na każdego agenta. To kwestia elementarnej higieny finansowej.

Musimy również zweryfikować, jak nasi ludzie pracują z tą technologią. Zidentyfikowanie „Centaurów” (ekspertów wzmacniających swoje kompetencje AI) i wyeliminowanie „Automatyzatorów” (bezrefleksyjnie delegujących pracę maszynie) pozwoli na realny wzrost ROI. Najdroższym i najszybszym sposobem na zmarnowanie budżetu na innowacje jest kupowanie milionów tokenów po to, by zespoły pracowały dokładnie tak samo jak w 2022 roku, tyle iż z interfejsem czatu na ekranie.

Idź do oryginalnego materiału