Analiza ISBiznes.pl: Informatyczny armagedon z powodu jednej linijki kodu

1 miesiąc temu

Od Brazylii po Polskę i od Australii po Grenlandię – tak określono w Bloomberg TV zasięg awarii systemów Microsoft, do których dostęp został uniemożliwiony przez zawierające błędy uaktualnienie jednego z najważniejszych narzędzi ochrony przez cyberatakami – Falcon Strike Sensor firmy CrowdStrike, jednego z istotnych partnerów Microsoft Corporation.

CrowdStrike został założony w 2011 r., a na rynku zaczął działać rok później, zaś w 2017 roku był już notowany na NASDAQ. W czerwcu br. firma z Austin w Teksasie poinformowała, iż jej przychody w ostatnim kwartale wzrosły o 33% w porównaniu z analogicznym okresem 2023 roku osiągając zysk netto w kwocie 42,8 mln dolarów.

„To był dzień sądu w światowym IT. Około 2-3 w nocy czasu warszawskiego (UTC+2) firma CrowdStrike wydała aktualizację sterownika swojego antywirusa Falcon Strike. Nikt się nie spodziewał, iż doprowadzi to do gigantycznej awarii na całym świecie.

Błędna wersja tworzy problem, który skutkuje wyświetleniem komunikatu: „addressing invalid memory space”, co niestety wskazuje na brak należytych testów jakości w firmie. Błąd ten oznacza, iż sterownik próbuje uzyskać dostęp do części pamięci sprzętu, która jest chroniona lub należy do wyjątków i system w ramach ochrony danych wpada w pętle restartów, gdy próbuje zapobiec naruszeniu ochrony pamięci.

Pierwszym efektem jest ekran śmierci – BSOD, komputery, VDI, serwery chmurowe Office automatycznie przestały działać. Ze względu na poziom błędu nie jest możliwe naprawienie go poprzez wydanie aktualizacji systemu lub oprogramowania. Wymagany jest fizyczny dostęp do maszyny i manualne usunięcie wadliwego pliku. W przypadku maszyn korporacyjnych procedura jest mocno utrudniona przez dodatkowe zabezpieczenia jakie one posiadają. Podsumowując, jedna linijka kodu i brak testów doprowadziły do trudnych do oszacowania strat” – tak dla ISBiznes.pl podsumował całą awarię Mateusz Gołdak, programista, kierownik projektu z 20-letnim stażem.

Piątkowy armagedon rozpoczął się od chwili, w której z CrowdStrike wypuszczono wadliwą aktualizację sterownika narzędzia zapobiegającego włamaniom i atakom hackerskim – Falcon Strike Sensor. Jest to narzędzie bezpieczeństwa biernego – wykrywa ataki i blokuje dostęp do usług, które mogą być zaatakowane. Tym razem, jak przyznało CrowdStrike, „wykryto usterkę w jednej z aktualizacji zawartości dla hostów z systemem Windows”, dodając, iż nie miało to wpływu na systemy Mac i Linux. Ponieważ jednak CrowdStrike współpracuje z Amazon Web Services, a technologia zabezpieczeń „Falcon for Defender” ma na celu uzupełnienie usługi Microsoft Defender w celu zapobiegania atakom, była firmą zaufaną. Tymczasem błędny sterownik zablokował dostęp do usług chmurowych Microsoft i do systemów operacyjnych koncernu z Redmond. I wtedy wystąpiły problemy na naprawdę wielką skalę.

Zaczęło się od lotnisk. Linie lotnicze utraciły dostęp do usług odprawy i rezerwacji w okresie szczytu letniego – systemy lotniskowe też pokazały błękitne „ekrany śmierci” na lotniskach Europy, USA i Azji. Główne amerykańskie linie lotnicze – American Airlines, Delta Air Lines i United Airlines – uziemiły samoloty. Lotniska z Los Angeles, Singapuru, Hongkongu, Amsterdamu i Berlina podały, iż linie lotnicze musiały odprawiać pasażerów manualnie, co powodowało opóźnienia. Zablokowane zostało lotnisko w Pradze. Dopiero po południu hiszpański operator lotniska Aena, amerykańscy przewoźnicy American Airlines, Frontier and Spirit i operator międzynarodowego lotniska w Dubaju stwierdzili, iż wracają do normalnej pracy. Inne linie lotnicze do wieczora usuwały bezpośrednie skutki awarii. Według postu na serwisie X zespoły IT British Airways „ciężko pracują, aby zarządzać i ograniczać wpływ” awarii systemów Microsoft na klientów i tak było do późnej nocy.

Awaria miała też według ministra portów i lotnisk Brazylii Silvia Costy Filho „wpłynąć na odprawy niektórych linii lotniczych w Brazylii, co spowodowało sporadyczne opóźnienia lotów”, za to udało się uniknąć problemów w działaniu kontroli lotu.

„Problem informatyczny może przez cały czas mieć wpływ na loty w najbliższy weekend […], współpracujemy z liniami lotniczymi, aby ściśle monitorować globalny problem informatyczny, który może w dalszym ciągu mieć wpływ na loty w ten weekend” – stwierdziła w poście na X Federalna Administracja Lotnictwa FAA. Sekretarz transportu USA Pete Buttigieg powiedział w NBC, iż problemy z systemem transportu wydają się być rozwiązane i, „miejmy nadzieję, powrócą do normy do soboty”. Jednak w tej chwili już widać iż nie jest to prawdą. Usuwanie skutków awarii będzie trwało przynajmniej przez cały weekend.

Awaria dotknęła też media. Sky News, jeden z głównych nadawców w Wlk. Brytanii, przeprosił za niemożność transmisji na żywo i przez pewien czas nie był obecny w eterze.

FedEx poinformował w oświadczeniu na swojej stronie internetowej, iż odnotowuje „znaczne zakłócenia w sieciach” spowodowane problemami informatycznymi. Potwierdzono, iż opóźnienia w dostawie paczek zaplanowanych na piątek są „prawdopodobne”.

Port Houston, piąty pod względem ruchu port kontenerowy w USA, przyznał, iż terminale kontenerowe Barbours Cut i Bayport były zamknięte z powodu „poważnych przerw technologicznych”. Maersk, drugi przewoźnik kontenerowy na świecie, także przyznał, iż globalna awaria infrastruktury informatycznej dotknęła niektóre jego terminale kontenerowe. „Problemy na krótko dotknęły niektóre obsługiwane przez nas terminale, ale wszystkie wróciły do działania w ciągu kilku godzin” – poinformowała media duńska firma.

Banki w Niemczech, USA, Wlk. Brytanii, Hiszpanii, Włoszech, Republice Południowej Afryki i Nowej Zelandii zgłosiły awarie mające wpływ na płatności i usługi online. W Polsce klienci Santander Bank Polska, jednego z największych banków w Polsce, naraz stracili dostęp do kont bankowych przy pomocy aplikacji oraz możliwość zapłaty kartami. Downdetector wykazał w 81% zgłoszeń problemy płatnościami bezgotówkowymi. Inne problemy to niemożliwość logowania poprzez serwis i aplikację mobilną, niemożność wykonywania przelewów, sprawdzanie stanu konta czy historii transakcji.

Po południu LSEG Group stwierdziła, iż jej dane i usługi zostały przywrócone i działają po awarii, która spowodowała „pewne zakłócenia na rynkach finansowych”, a konkretnie praktyczny brak działania giełdy LSE w Londynie.

Zaczęły się także problemy z systemami usług publicznych i systemami rządowymi. Nie działały systemy rezerwacji używane przez lekarzy w Wlk. Brytanii. Szpitale w USA miały problemy z systemami wizyt, co prowadziło do opóźnień, a czasami do odwołania przyjęć, podczas gdy urzędnicy medyczni w niektórych stanach USA ostrzegali przed problemami z numerem 911 na swoich obszarach. „Pewne zakłócenia” zgłosiły ministerstwa spraw zagranicznych Holandii i Zjednoczonych Emiratów Arabskich.

NASA przyznała, iż „widzi pewien wpływ na aplikacje i usługi” Microsoft 365, ale nie ma wpływu na operacje i komunikację na stacji kosmicznej.

Bywały też awarie zaskakujące. Klub piłkarski Manchester United zapowiedział w X, iż musi przełożyć planowaną sprzedaż biletów. System Starbuck do składania zamówień z wyprzedzeniem w aplikacjach mobilnych nie działał, co zmusiło pracowników do manualnego przyjmowania zamówień i w wielu przypadkach ich odwoływania. W Polsce serwis Downdetector zbierający dane na temat awarii wykazał wielką liczbę zgłoszeń dotyczących niedostępności Microsoft Store, czy Microsoft 365. Przez pewien czas nie działały w Polsce także usługi związane z konsolą Xbox.

Dodatkowo Microsoft sam przyznał, iż od 18 lipca wieczorem wystąpiły „pewne problemy” z usługą chmurową Azure, ale 19 lipca wieczorem firma poinformowała w poście na X, iż wszystkie aplikacje i usługi Microsoft 365 zostały przywrócone. Microsoft 365 stwierdził na platformie X, iż „pracuje nad przekierowaniem ruchu do systemów alternatywnych w celu złagodzenia skutków”, i iż „obserwuje pozytywny trend w dostępności usług”.

W południe 19 lipca, dyrektor generalny Microsoft Satya Nadella napisał w poście na X, iż CrowdStrike opublikował „aktualizację, która zaczęła mieć wpływ na systemy IT na całym świecie”. „Jesteśmy świadomi tego problemu i ściśle współpracujemy z CrowdStrike i całą branżą, aby zapewnić klientom wskazówki techniczne i wsparcie, aby bezpiecznie przywrócić ich systemy do trybu online” – dodał.

Rano 19 lipca CrowdStrike poprzez swojego dyrektora generalnego George Kurtza w poście opublikowanym w serwisie X poinformował, iż usterka została zidentyfikowana, i iż firma wdrożyła „poprawkę”, która wymagała manualnego ponownego uruchomienia komputerów z systemem Windows. Rzecznik firmy Frank X. Shaw dodał później, iż firma „aktywnie wspiera klientów, pomagając im w powrocie do normalnego działania”.

Jak się okazało, wprowadzenie koniecznej poprawki dla środowisk chmurowych obejmuje 10-etapowy ręczny proces usuwania fragmentu kodu CrowdStrike powodującego problem. Za to użytkownicy firmowych laptopów lub komputerów stacjonarnych mają łatwiejsze rozwiązanie – wystarczy ponownie uruchomić urządzenie.

Pointą dla całego chaosu wywołanego, jak stwierdził analityk-programista języka C Zach Vorhies, „dziecinnym błędem programisty wpisującego niewłaściwą linijkę kodu odwołującą się do zastrzeżonego obszaru pamięci” było stwierdzenie analityka Bloomberg Intelligence Tomasza Noetzela. Zauważył on, iż po pandemii zaczął się okres zwiększonej zależności banków i instytucji finansowych od dostawców usług chmurowych w celu przyspieszenia transformacji cyfrowej. Noeztel przypomniał też, iż na usługach w chmurze istnieje „koncentracja dużych dostawców: Amazon, Microsoft i Google mają 65% udział w całym rynku”.

To samo zauważył Craig Shue, profesor i kierownik wydziału informatyki w Worcester Polytechnic Institute. Jak stwierdził w komentarzu dla Bloomberg, „to sytuacja, w której obowiązuje zasada: wszystkie jajka do jednego koszyka”.

„Dzięki temu możemy mieć pewność, iż nasz „koszyk” jest wysokiej jakości: dostawca systemu stara się identyfikować zagrożenia i gwałtownie na nie reagować. Ale jednocześnie, jeżeli coś pójdzie nie tak i koszyk ulegnie awarii, mamy mnóstwo rozbitych jajek” – dodał.

Akcje CrowdStrike spadły o 11% rano 19 lipca na NYSE, tracąc około 7,4 mld dolarów na wartości rynkowej. Akcje spadły wcześniej aż o 15% w handlu przedsesyjnym, co było największym spadkiem w ciągu dnia od lutego. Notowania akcji Microsoftu kilka się zmieniły i cena wyniosła 437,65 dolarów.

Idź do oryginalnego materiału