. Szwajcarskie krajowe centrum superkomputerówznany również jako CSCS, zbudował i wdrożył nowy superkomputer we współpracy z NVIDIA i HPE.
Maszyna, zwana Alpami, pojawiła się na linii pod koniec 2024 roku i już jest wymieniony jako siódmy najsilniejszy superkomputer na świecie – i drugi najpotężniejszy w Europie. Cotygodniowe komputerowe siedziały z Thomas Schulthessdyrektor CSCS i profesor fizyki obliczeniowej w ETH [Eidgenössische Technische Hochschule or Federal Institute of Technology] Zurych, aby dowiedzieć się więcej.
Jaka jest historia Alp i jakie decyzje architektoniczne podejmowałeś po drodze?
Thomas Schulthess: Zacznę od wyjaśnienia różnicy między CSC i Alpami. CSCS to centrum z ludźmi. Główny obiekt znajduje się w Lugano, w pobliżu stadionu piłkarskiego i na stadionie hokeja na lodzie. Został założony w 1991 roku na długo przed przybyciem, i tam wdrażamy i obsługujemy superkomputerów, z których największym są Alpy, które pojawiły się online w 2024 r. Przed Alpami wdrożyliśmy już wiele innych superkomputerów.
Na przykład mieliśmy Piz Dainthybrydowa maszyna Cray XC40/XC50, która była pierwszym superkomputerem opartym na GPU w Europie. Wdrożyliśmy go około 2012 do 2013 roku, co było mniej więcej w czasie Jaguar W Oak Ridge National Laboratory w USA.
Jedną z rzeczy, które czyni nas wyjątkowymi, jest to, iż projektujemy, budujemy i obsługujemy superkomputerów MeteoswanySzwajcarska służba meteorologiczna. Zwykle usługi pogodowe prowadzą własne komputery, ale w naszym przypadku robimy to dla nich. W rezultacie od dziesięcioleci od dziesięcioleci od dziesięcioleci od dziesięcioleci od dziesięcioleci od dziesięcioleci.
Alps to próba wprowadzenia różnych komputerów do jednej platformy – i motywowało ją wzajemną ocenę centrum, które mieliśmy w 2015 roku, gdzie otrzymaliśmy bardzo mocną wiadomość informującą, iż wykonaliśmy świetną robotę wdrażając PIZ Daint, ale teraz my Musi stawić czoła wyzwaniom danych i złożonych przepływów pracy w obliczeniach naukowych.
Wtedy zaczęliśmy szukać opcji, jak rozwinąć superkomputer. A to, co wyszło jako kooperacja z tym, co było wówczas Cray, a teraz HPE, który nabył Craya w 2019 r. architektura. Dla nas był to naprawdę dobry rozwój, ale okazał się bardzo trudny, o wiele trudniejszy niż ktokolwiek przewidział.
Ale postanowiliśmy iść w ten sposób około 2018–2019. Przeprowadziliśmy zamówienia, a Cray wygrał kontrakt. Następnie rozważaliśmy konkurencyjne architektury – NVIDIA kontra AMD – i ostatecznie poszliśmy po oba. Wykonaliśmy skalę z Grace Hopper [from Nvidia]; A teraz mamy również znaczącą partycję akceleratorów MI300A [from AMD] na Alpach.
A jak Dzisiaj działa Alpy?
Schulthess: Sposób, w jaki Alps Dzisiaj działa, ma bardzo duży proca Sieć, jak Granica I Lumi – i możemy podzielić sieć. Na końcu każdego punktu końcowego sieci znajduje się urządzenie pamięci lub węzeł obliczeniowy. A węzły obliczeniowe są oparte na oparciu o Grace Hopper (GH200) lub oparte na AMD-MI300A. Mamy również procesory NVIDIA A100 i AMD MI250X, które czyni węzeł taki sam jak w Lumi i na Frontier. Mamy również węzły oparte na Rzymie AMD, więc tradycyjna partycja wielordzeniowa.
Dlatego wspieramy wiele architektur obliczeniowych na Alpach. Chodzi o to, iż możemy obsługiwać różne obciążenia. I skupiamy się na tworzeniu systemu aplikacji. Możemy więc udostępnić programistom wszystkie tego rodzaju architektury. I właśnie tam jesteśmy dzisiaj.
Jak oferujesz usługę w Alpach?
Schulthess: Możesz oglądać Alpy jak wrażenia podobne do chmury, z różnymi rodzajami usług. Możemy oferować infrastrukturę jako usługę (IAAS). zwykle oferujemy IaaS innym infrastrukturze badawczej, tak jak dla Paul Scherrer Institute który uruchamia kilka dużych programów użytkowników, w tym dostęp do synchrotronu [the Swiss Light Source]The Darmowy laser elektronowy [SwissFEL]i Szwajcarski neutron spalania Udanie studiowania nauk mionowych. I tak otrzymują partycję na Alpach i prowadzą na niej własne platformy.
W innych przypadkach możemy stworzyć platformę dla sztucznej inteligencji lub tradycyjnego HPC lub klimatu i pogody dla użytkowników. A potem mamy użytkowników lub społeczności, które prowadzą własną funkcję jako usługa, i zapewniamy im platformę jako usługę. Jesteśmy również zaangażowani w duże eksperymenty, takie jak Tablica kilometra kwadratowego lub szwajcarski poziom drugi dla analizy danych LHC, która jest częścią sieci obliczeniowej World LHC, która jest partycją na Alpach.
I prawdopodobnie najważniejsze jest to, iż kiedy kiedyś mieliśmy osobny komputer dla Meteoswany, z nowym modelem, uruchamiamy ich numeryczny system prognozowania IKONA w partycji na Alpach.
Wygląda na to, iż fakt, iż iCon działa teraz w partycji, jest dobrym wskazaniem wielkości Alp?
Schulthess: Cóż, pokazuje ci rozmiar, ale także szerokość, którą możemy pokryć. Tradycyjnie superkomputer to unikalny system. Może być heterogeniczny-na przykład PIZ Daint jest heterogeniczny, ponieważ ma węzły wielorasowe, węzły przyczepne GPU. Może to być heterogeniczne, ale zostało archiwizowane jako jednolity system, ponieważ jest to rozwiązanie w jednym rozmiarze pod względem środowiska programowania i tym podobnych rzeczy.
Zazwyczaj użytkownicy muszą dostosować się do konkretnego superkomputera. Tak więc w zasadzie masz młotek i musisz sprawić, by wszystko wyglądało jak paznokcie. Teraz w Alps możemy tworzyć partycje i środowisko systemu w tych partycjach, aby dostosować się do użytkowników.
Kto finansuje CSC i Alpy?
Schulthess: Alpy jako infrastruktura badawcza jest finansowana z domeny ETH. CSCS to jednostka ETH Zurychgdzie jestem także profesorem fizyki. ETH Zurych i EPFL, siostrzana szkoła w Lozannie, a cztery narodowe laboratoria są połączone pod tak zwaną domeną ETH.
Cała domena jest finansowana przez Sekretariat Stanu ds. Edukacji, Badań i Innowacji – to nasze główne źródło finansowania. Ale część meteoswajska jest finansowana przez Meteoswys i bez względu na ich źródła finansowania. Musimy zatem utrzymać wyraźną separację. A także mają fundusze zewnętrzne, podobnie jak większość infrastruktur badawczych, w zakresie około 20%.
Ponieważ jesteśmy infrastrukturą finansowaną ze środków publicznych, choćby jeżeli współpracujemy z innymi stronami trzecimi i otrzymujemy pełne odzyskanie kosztów, przez cały czas jesteśmy subsydiowani, a dotacje nie skalują. Nie możemy prowadzić działań komercyjnych w naszej infrastrukturze, choć możemy zaangażować się we współpracę badawczą z firmami komercyjnymi. A kiedy współpracujemy z firmami, muszą oni sfinansować koszty odzyskiwania tych współpracy.
A co z twoim zaangażowaniem w Openchami konsorcjum?
Schulthess: Konsorcjum Openchami obejmuje w tej chwili pięciu partnerów: Narodowe laboratorium Los AlamosW NERSC [National Energy Research Scientific Computing Center]W Lawrence Berkeley National LaboratoryW University of BristolHPE i CSCS.
Konsorcjum opracowuje infrastrukturę zarządzania systemem w przyszłości. Alpy są niezbędnym przypadkiem użycia w tym rozwoju. Właśnie dlatego oprogramowanie do zarządzania systemem będzie przez cały czas ewoluować w ciągu najbliższych dwóch lub trzech lat – tutaj w CSCS, ale także w Bristolu, w Los Alamos i w Berkeley.