Detalyadong El Capitan Supercomputer: AMD CPUs at GPUs Upang Magmaneho ng 2 Exaflops ng Compute

Noong Agosto, inihayag ng Kagawaran ng Enerhiya at Cray ng Estados Unidos ang mga plano para sa isang pangatlong superkomputer ng Estados Unidos, El Capitan. Naka-iskedyul na mai-install sa Lawrence Livermore National Laboratory (LLNL) sa unang bahagi ng 2023, ang sistema ay inilaan nang una (ngunit hindi eksklusibo) para magamit ng National Nuclear Security Administration (NNSA), na gumagamit ng mga supercomputers sa kanilang patuloy na pagmomolde ng sandata ng nuklear. Sa oras na inihayag ang system, Kinumpirma ng DOE at LLNL na bibili sila ng isang sistema ng Shasta mula sa Cray (ngayon bahagi ng HPE), gayunpaman ang pag-anunsyo sa oras ay hindi napunta sa anumang detalye tungkol sa kung ano ang hardware ay talagang mapupuno isa sa napaka-kakayahang umangkop na mga supercomputer ni Cray.

Ngunit sa ngayon, tapos na ang paghihintay. Ngayong hapon ang DOE at HPE ay inanunsyo ang mga detalye ng arkitektura ng superkomputer, na isiniwalat na ang AMD ay magkakaloob ng parehong mga CPU at accelerator (GPU), pati na rin ang pagbabago sa pagtatantya ng pagganap para sa superkomputer. Inaasahan na maging ang pinakamabilis ng mga magagandang sistema ng US, ang El Capitan ay orihinal na inatasan bilang isang 1.5 exaflop system pitong buwan na ang nakalilipas. Gayunpaman salamat sa ilang mga pagbabago sa huli na pagsasaayos, inaasahan ngayon ng DOE ang system na maabot ang 2 exaflops sa sandaling ito ay ganap na mai-install, na kung saan ay latagan ng simento ang lugar nito sa tuktok ng imbentaryo ng superkomputer ng US.

Sa pangkalahatan, ang El Capitan ay pangalawa (at tila pangwakas) system na binuo bilang bahagi ng CORAL-2 ng programa ng US DOE para sa mga supercomputers. Tulad ng katulad na sistema ng Frontier, ang El Capitan ay may $ 600 milyon na tag na presyo at inilaan upang matiyak na ang pamunuan ng US sa mga supercomputers sa panahon ng exascale. Ang LLNL ay gumagamit ng system upang mapalitan kadena ng mga bundok, ang kanilang kasalukuyang IBM Power 9 + NVIDIA Volta supercomputer. Sinabi ng lahat, ang El Capitan ay 16 beses na mas malakas kaysa sa system na pinapalitan nito. Gagamitin ito ng LLNL para sa pangunahing modelo para sa nukleyar na sandata - pamalit para sa aktwal na pagsubok sa armas - habang ang system ay makikita rin ang pangalawang paggamit bilang isang sistema ng pananaliksik sa iba pang mga larangan, lalo na sa kung saan maaaring mailapat ang pagkatuto ng makina.

US Kagawaran ng Enerhiya Exascale Supercomputers
El Capitan Hangganan Aurora
CPU Architecture "Genoa" ng AMD EPYC
(Zen 4)
AMD EPYC
(Hinaharap na Zen)
Intel Xeon Scalable
Arkitektura ng GPU Radeon Instinct Radeon Instinct Intel Xe
Pagganap (RPEAK) 2.0 EFLOPS 1.5 EFLOPS 1 EFLOPS
Power Consumption <40MW ~ 30MW N / A
Node N / A 100 Mga Kabinet N / A
laboratoryo Lawrence Livermore Oak Ridge Argonne
Magtitinda Cray Cray Intel
taon 2023 2021 2021

Ang El Capitan ay ang pangalawang exascale supercomputer win para sa AMD, na nagbibigay din ng mga CPU at GPU sa likuran ng 1.5 exaflops Frontier system para sa Oak Ridge National Laboratory. At sa katunayan, sa isang mataas na antas ang El Capitan ay mukhang isang buong tulad ng Frontier mula sa isang pananaw sa hardware. Sa paghahatid ng Cray bilang pangunahing kontraktor sa parehong mga sistema, ang El Capitan at Frontier ay mga sistema ng Cray Shasta, na gumagamit ng mga processors ng AMD kasama ang mga cabinets ni Cray at ang kanilang Slingshot interconnect na teknolohiya. Gayunpaman sa isang kagiliw-giliw na pagliko ng mga kaganapan, ang LLNL ay medyo nalalapit lamang tungkol sa kung ano ang tiyak na hardware ay magiging sa kanilang bagong supercomputer.

Sa panig ng CPU, ang AMD ay magbibigay ng pamantayang bersyon ng kanilang Zen 4-based "Genoa" EPYC processor. Bilang pa rin ito ng dalawang henerasyon mula sa kasalukuyang mga paninda ng AMD, ang halaga ng impormasyon sa Zen 4 / Genoa ay limitado, ngunit ang AMD ay nangangako ng suporta para sa susunod na henerasyon na memorya, ang Infinity Fabric 3, pati na rin ang malawak na mga pangako ng parehong solong at multi-sinulid. pamunuan ng pagganap. Kapansin-pansin, ito ay isang mas mataas na antas ng detalye sa CPU kaysa sa mayroon kaming kasalukuyang para sa Frontier, na gumagamit ng isang hindi natukoy at napasadya na susunod na henerasyon na EPYC CPU.

Samantala sa panig ng GPU, ang AMD at Cray ay patuloy na hawak ang kanilang mga kard sa halip na malapit. Habang ang mga kumpanya ay nagpapatunay na gagamitin ito ng isang susunod na henerasyon na AMD GPU gamit ang isang bagong arkitektura, hindi nila binibigyan ang pangalan ng arkitektura o nag-aalok ng labis sa paraan ng mga detalye tungkol dito. Sa ngayon, ang sinasabi nila ay ang mga GPU na ito ay gumagamit ng mga susunod na henerasyon na HBM para sa kanilang memorya, at magdadala sila ng suporta para sa halo-halong compute compute para sa pinahusay na pagganap ng malalim na pagkatuto.

Sa kabuuan, ang malawak na mga pagtutukoy na ito ay napakalapit sa GPU na gagamitin sa Frontier, kaya ang El Capitan ay maaaring mahusay na gumamit ng parehong GPU, o hindi bababa sa isang karagdagang derivative nito. Mula sa likas na katangian ng mga komento ng AMD tungkol sa bahagi, parang anuman ito, dapat nating asahan na malaman ang higit pang mga detalye sa arkitektura tungkol dito.

Ngunit marahil ang pinakamalaking bahagi ng ihayag ngayon ay ang magkakaugnay. Sa kauna-unahang pagkakataon ay pinangalanan ng AMD ang kanilang Infinity Fabric 3.0, na gagamitin upang ikonekta ang mga processors sa loob ng bawat talim. Tulad ng Frontier, ang El Capitan ay tatakbo sa isang 4: 1 na pagsasaayos, na may apat na GPU na naka-hook sa bawat CPU. Para sa Infinity Fabric 3.0, ang AMD ay nangangako ng karagdagang mga pagpapabuti sa inter-chip bandwidth at latency. Gayunpaman ang pinaka-kagiliw-giliw na pag-angkin ay ang mga IF 3.0 aparato ng node ay susuportahan ang pinag-isang memorya sa buong CPU at GPU, na kung saan ay isang bagay na hindi inaalok ng AMD ngayon. Sa katunayan kahit na ang Frontier ay isinalin lamang upang mag-alok ng pagkakaisa sa pagitan ng mga processors na isang hakbang sa ibaba ng isang tunay na pinag-isang modelo ng memorya. Ang diyablo ay nasa mga detalye ng kurso - ang isang pinag-isang sistema ng memorya ay hindi nangangahulugang mabilis na pag-access sa memorya ng ibang aparato - ngunit ito ay nangangahulugan na maging isang malaking pagtalon para sa AMD bilang isang pinag-isang sistema ng memorya ay maaaring mapabuti ang parehong kadalian sa pagprograma ng naturang sistema , at pagpapabuti ng pagganap nito kapag nagpapatakbo ng mga heterogenous workload.

Sa wakas, tulad ng nabanggit nang una, ang pagtali ng mga node ay magiging sariling pagkakaugnay sa Slingshot ng Cray. Kabilang sa iba pang mga bagay, Sinusuportahan ng Slingshot ang agpang pag-ruta, pamamahala ng kasikipan, at mga tampok na serbisyo ng kalidad. Ang interconnect ay may kakayahang 200Gb / sec bawat port, na may mga indibidwal na blades na isinasama ang isang port para sa bawat GPU sa talim upang ang iba pang mga node ay direktang mabasa at magsulat ng data sa memorya ng isang GPU.

Sa kasamaang palad, ang DOE at Cray ay hindi pagpunta sa masyadong maraming detalye sa nakumpletong layout ng system. Ang El Capitan ay isinalin upang gumamit ng mas mababa sa 40MW ng kapangyarihan - at sinabihan namin ito na "medyo malaki sa ilalim nito" - gayunman sa oras na ito ay hindi isiniwalat ng DOE ang kabuuang bilang ng mga cabinets. Ngunit upang ilagay ang mga bagay sa paghahambing, ang Frontier ay isinalin upang magamit ang 100 castaet ng Shasta, na may kabuuang badyet ng kuryente na mas mababa kaysa sa El Capitan. Kaya hindi kami masyadong magulat na sa huli ay malaman na ang bahagi ng kadahilanan na ang El Capitan ay 33% na mas mabilis kaysa sa Frontier ay dahil sa DOE na naghahagis ng mas maraming hardware dito at nag-order ng higit pang mga cabinets. Ngunit anuman ang bilang, magiging sapat na ang El Capitan ay gumagamit ng direktang paglamig ng likido.

Samantala, kagiliw-giliw na tandaan na sa kanilang press conference, kinuha ng LLNL ang oras upang banggitin na bahagi ng pagpapalakas ng pagganap para sa El Capitan sa paunang pagkakasunud-sunod nito ay dahil sa plano ng pagkuha ng grupo. Nabanggit ng LLNL na gumagamit sila ng isang "late-binding" na diskarte para sa El Capitan, pagpapasya sa (Shasta) na arkitektura nang maaga, at pagkatapos ay pumili ng mga tukoy na processors sa ibang pagkakataon - marahil ay tungkol sa huli na maaari silang maghintay upang makagawa ng desisyon. Sa huli ay binabanggit ng LLNL ito bilang pagbibigay sa kanila ng mas mahusay na mga resulta sa pagtatapos, dahil napili nila ang pinakamabilis na hardware na maaaring magamit. Sa madaling salita, habang inihayag ng DOE at LLNL na bumalik ang El Capitan noong Agosto, kamakailan lamang ay napagpasyahan nila na ito ay AMD na pinupuno ito.

Sa pangkalahatan, ang El Capitan ay nagmamarka ng isang mahalagang pangalawang exascale supercomputer na panalo para sa AMD, habang si Cray ay kasangkot sa lahat ng tatlong mga sistema ng exascale ng US. Kaya ito ay isang malaking panalo para sa parehong mga nagtitinda, at isang pagpapatuloy ng momentum para sa AMD, na nagmarka lamang sa kauna-unahang malaking supercomputer na panalo sa mahabang panahon kasama ang Frontier noong nakaraang taon.

Ang katotohanan na ang El Capitan ay isang hinalaw ng Frontier ay nangangahulugan din na sa lahat ng tatlong mga magagandang sistema na naka-lock ngayon, ito ay NVIDIA na mahahanap ang kanilang sarili sa labas na naghahanap para sa henerasyong ito. Tulad ng nabanggit namin sa anunsyo ng Frontier, ang Intel Aurora at ang AMD Frontier / El Capitan system ay nagmumula sa mga full-service processor na nagbibigay ng parehong mga CPU at GPU. Ang mga kasalukuyang sistema ng henerasyon tulad ng Summit ay gumagamit ng halo-halong mga nagtitinda - hal. IBM + NVIDIA - kaya ang paglipat sa pinagsamang vendor ay isang malaking shift para sa mga sistemang ito ng CPU + accelerator. At habang gumagawa ng maraming kahulugan para sa LLNL na mag-order ng isang kopya ng isa sa iba pang mga magagandang sistema sa ngalan ng kahusayan, dapat itong tandaan na ang mga kontrata ng superkomputer ng US DOE ay mas maraming pampulitika dahil sila ay mga teknikal. Ang US ay may interes na suportahan ang isang domestic supercomputer na industriya at tinitiyak na may mga mabubuong kakumpitensya upang makatulong na mapanatili ang mga gastos (mayroong maraming), kaya sa tatlong pangunahing alyansa / vendor ng processor sa US, may isang taong nakasalalay upang tapusin ang kakaibang tao sa labas.

Sa anumang rate, ang El Capitan ay naka-iskedyul para sa paghahatid sa unang bahagi ng 2023. At kasama ang taunang Financial Analyst Day ng AMD na naka-iskedyul para bukas, inaasahan na makakakuha kami ng isang mas mahusay na larawan kung saan umaangkop ang Genoa sa mga kalsada ng AMD, at marahil higit pa sa kung ano ang asahan sa hardware na sa kalaunan ay may kapangyarihan sa pinakamabilis na superkomputer sa mundo.

Mga Pinagmumulan: LLNL, HPE

Ipagkalat ang pag-ibig

Mag-iwan ng komento