Tańszy, 100x szybszy i mądrzejszy. Singapurski model AI deklasuje konkurencję pod każdym względem

10 godzin temu
Zdjęcie: sztuczna inteligencja. AI


Singapurski startup Sapient Intelligence rzuca wyzwanie gigantom AI, wprowadzając nową architekturę, która wydajniej radzi sobie ze złożonymi problemami. Model, inspirowany działaniem ludzkiego mózgu, potrzebuje przy tym znacznie mniej danych treningowych i mocy obliczeniowej niż obecne modele językowe.

Firma opracowała Hierarchiczny Model Rozumowania (HRM), który, jak sama nazwa wskazuje, przetwarza informacje w sposób hierarchiczny. Zamiast polegać na popularnej w dużych modelach językowych (LLM) metodzie “łańcucha myśli” (chain-of-thought), która krok po kroku generuje tekstowe rozumowanie, HRM wykorzystuje dwa wyspecjalizowane moduły.

Architektura inspirowana neuronauką

Sercem modelu HRM są dwa współdziałające ze sobą komponenty. Moduł wysokiego poziomu (H) odpowiada za powolne, abstrakcyjne planowanie strategiczne, co można porównać do świadomego namysłu u człowieka. Z kolei moduł niskiego poziomu (L) zajmuje się szybkimi, szczegółowymi obliczeniami, działając niczym ludzka intuicja. Ta dwutorowa architektura ma zapobiegać błędom i niestabilności, które często trapią LLM-y podczas wieloetapowych zadań.

Podejście to stoi w kontrze do “łańcucha myśli”, który bywa powolny i podatny na błędy, ponieważ model musi “wypowiedzieć” każdy krok rozumowania. HRM przetwarza te kroki wewnętrznie, bez konieczności ich werbalizacji, co czyni proces znacznie szybszym i bardziej efektywnym.

Mniej znaczy więcej

Największe wrażenie robi efektywność danych nowego modelu. W testach porównawczych, takich jak rozwiązywanie ekstremalnie trudnych łamigłówek Sudoku czy test ARC-AGI (Abstraction and Reasoning Corpus), HRM osiągnął lepsze wyniki niż znacznie większe modele od OpenAI i Anthropic. Co kluczowe, do każdego z tych zadań potrzebował zaledwie 1000 przykładów treningowych.

Według twórców, w przypadku złożonych problemów wymagających podejmowania decyzji, HRM może być choćby stukrotnie szybszy i znacznie tańszy w użyciu niż tradycyjne LLM-y. Co więcej, model nie tylko rozwiązuje problemy, ale także uczy się, jak robić to coraz sprawniej. W trakcie treningu na łamigłówkach Sudoku, HRM potrzebował coraz mniej kroków, by dojść do rozwiązania, naśladując proces, w którym nowicjusz staje się ekspertem. Potencjalne zastosowania tej technologii obejmują robotykę, medycynę i badania naukowe, czyli dziedziny, gdzie kluczowa jest nie tylko odpowiedź, ale i niezawodny, efektywny proces dochodzenia do niej.

Idź do oryginalnego materiału