Chińska firma DeepSeek wprowadziła na rynek nowy model językowy DeepSeek-R1, udostępniając go publicznie na platformie Hugging Face na licencji MIT. Producent twierdzi, iż narzędzie przewyższa konkurencyjne modele OpenAI w testach wydajnościowych, takich jak AIME, MATH-500 czy SWE-bench Verified. Czy rzeczywiście ma szansę zrewolucjonizować rynek sztucznej inteligencji?
Otwartość i innowacje
Model DeepSeek-R1, wyposażony w imponującą liczbę 671 miliardów parametrów, wyróżnia się unikalną metodą rozumowania „chain-of-thought”, która pozwala na dokładniejsze analizy. Choć czas udzielania odpowiedzi może wynosić od kilku sekund do minut, metoda ta sprawdza się szczególnie w takich dziedzinach jak fizyka, matematyka czy nauki ścisłe.
Model udostępniono na licencji MIT, co oznacza, iż można go wykorzystać zarówno w projektach komercyjnych, jak i badawczych. Ponadto narzędzie pozwala użytkownikom na wgląd w tzw. „reasoning tokens”, co daje możliwość lepszego zrozumienia procesów rozumowania modelu.
Ograniczenia technologiczne
Mimo swoich zalet, DeepSeek-R1 boryka się z pewnymi ograniczeniami. Brak wsparcia dla funkcji „function calling” utrudnia tworzenie zaawansowanych chatbotów współpracujących z zewnętrznymi narzędziami. Model ma również problemy z dokładnością w bardziej nietypowych scenariuszach. Zaletą jest jednak zdolność generowania humorystycznych odpowiedzi, co może znaleźć zastosowanie w rozrywce.
Wysokie wymagania sprzętowe ograniczają dostępność narzędzia dla mniejszych firm czy indywidualnych użytkowników. DeepSeek przyznało, iż model wymaga ogromnych zasobów obliczeniowych, co może być barierą dla jego szerokiego wdrożenia.
NVIDIA H100 napędza rozwój DeepSeek
Aby sprostać wymaganiom obliczeniowym, DeepSeek wykorzystuje aż 50 000 procesorów graficznych NVIDIA H100. Układy te, zaprojektowane specjalnie do zadań związanych z AI, są najważniejsze w rozwijaniu zaawansowanych modeli językowych. Firma planuje wykorzystać tę infrastrukturę do dalszej optymalizacji swoich rozwiązań.
Kolejna generacja: DeepSeek-V3
26 grudnia 2024 roku DeepSeek zaprezentowało model DeepSeek-V3, oparty na architekturze Mixture of Experts (MoE). Nowe rozwiązanie pozwala na dynamiczne wybieranie wyspecjalizowanych sieci neuronowych do realizacji konkretnych zadań, co znacząco poprawia efektywność obliczeniową. Model generuje 60 tokenów na sekundę, co stanowi trzykrotny wzrost wydajności w porównaniu do jego poprzednika.
Trening DeepSeek-V3 pochłonął ponad 2,7 miliona godzin pracy procesorów graficznych NVIDIA H800, co kosztowało około 5,57 miliona dolarów. W porównaniu z typowymi kosztami treningu dużych modeli językowych, projekt DeepSeek jest relatywnie efektywny finansowo.