F5 i NVIDIA przyspieszają AI w Kubernetes dzięki BlueField-3 DPU

2 miesięcy temu

Zdjęcie: F5 Nvidia

F5 rozszerza swoją platformę Application Delivery and Security o nowe funkcje zaprojektowane z myślą o środowiskach Kubernetes dla AI. Kluczowym elementem jest nowy moduł BIG-IP Next for Kubernetes, który – we współpracy z DPU NVIDIA BlueField-3 i środowiskiem NVIDIA DOCA – zapewnia bardziej wydajne zarządzanie ruchem i bezpieczeństwem aplikacji generatywnych AI.

Nowość F5 nie jest tylko kolejnym narzędziem do load balancingu. To krok w stronę infrastruktury AI nowej generacji. Rozwiązanie testowane przez firmę Sesterce pokazuje, iż dynamiczne równoważenie obciążenia – przy rosnącym wolumenie danych i zapytań – pozwala na lepsze wykorzystanie GPU, a co za tym idzie, redukcję kosztów i poprawę jakości usług.

W praktyce oznacza to inteligentne trasowanie zapytań do modeli językowych – w tym LLM – w zależności od ich złożoności i dostępnych zasobów. Proste zadania mogą być obsługiwane przez lżejsze modele, natomiast złożone trafiają do większych instancji. To elastyczne podejście do routingu nie tylko poprawia czas odpowiedzi, ale umożliwia też specjalizację modeli w różnych domenach tematycznych.

Współpraca z NVIDIA pozwala F5 przenieść część operacji z CPU bezpośrednio na DPU BlueField-3, zmniejszając opóźnienia i uwalniając cenne zasoby serwerowe. Kluczową rolę odgrywa też KV Cache Manager, który – w połączeniu z NVIDIA Dynamo – pozwala ponownie wykorzystywać wcześniej przetworzone dane, co przyspiesza działanie systemów AI i zmniejsza zużycie pamięci GPU.

“Przedsiębiorstwa wdrażają coraz więcej modeli LLM dla bardziej złożonych zastosowań AI, jednak klasyfikowanie i trasowanie ruchu LLM potrafi być kosztowne obliczeniowo i pogarszać doświadczenia użytkowników” – zaznacza Kunal Anand, Chief Innovation Officer w F5. – “Implementując logikę trasowania bezpośrednio na DPU NVIDIA BlueField-3, F5 BIG-IP Next for Kubernetes jest najbardziej wydajną metodą dostarczania i zabezpieczania takiego ruchu. To dopiero początek. Nasza platforma otwiera nowe możliwości dla infrastruktury AI, a my nie możemy się doczekać pogłębiania współpracy z NVIDIA w miarę skalowania zastosowań AI w przedsiębiorstwach.”

Co istotne, nowy moduł F5 wspiera Model Context Protocol (MCP) – otwarty standard od Anthropic – zabezpieczając serwery LLM działające w tym modelu i umożliwiając szybsze dostosowanie do zmieniających się wymagań.

Dla dostawców usług IT i integratorów to konkretna wiadomość: F5 i NVIDIA oferują dziś narzędzia, które realnie optymalizują infrastrukturę AI – i są już dostępne komercyjnie. W świecie, gdzie każda milisekunda przetwarzania ma swoją cenę, to przewaga trudna do zignorowania.

“BIG-IP Next for Kubernetes, wspierany przez DPU NVIDIA BlueField-3, pozwala firmom i dostawcom usług lepiej zarządzać ruchem w środowiskach AI. Dzięki temu mogą zoptymalizować pracę GPU i skrócić czas przetwarzania przy wnioskowaniu, trenowaniu modeli czy wdrażaniu systemów AI” – mówi Ash Bhalgat, Senior Director of AI Networking and Security Solutions, Ecosystem and Marketing, NVIDIA. – “Dodatkowo wsparcie dla wielodostępności i programowalność iRules w F5 tworzą platformę dobrze przygotowaną pod dalszą integrację i rozwój, jak chociażby wsparcie dla rozproszonego KV Cache Manager w NVIDIA Dynamo.”

Idź do oryginalnego materiału