De bÀsta superdatorerna förblir desamma; Ny teknik visar en vÀg till exscale

 De bÀsta superdatorerna förblir desamma;  Ny teknik visar en vÀg till exscale

Vid Ă„rets stora superdatorkonferens, SC19, Ă€r toppen pĂ„ listan över de snabbaste maskinerna i vĂ€rlden oförĂ€ndrad, men det talas om ett antal nya tekniker som förklarar eran med exaskaladator – maskiner teoretiskt sett kapabla till en miljard miljarder (dvs. en kvintillion) berĂ€kningar per sekund.

Topp 500 nov19

Som det har varit sedan juni förra Ă„ret Ă€r toppdatorns dator vid Department of Energy’s Oak Ridge National Laboratory (ORNL) nu pĂ„ topp 500-listan, med en ihĂ„llande teoretisk prestanda pĂ„ 148,6 petaflops pĂ„ High Performance Linpack-testet som anvĂ€nds för att ranka Top500-listan. Denna maskin, byggd av IBM, har 4 608 noder, var och en utrustad med tvĂ„, 22-kĂ€rniga IBM Power 9-processorer och sex Nvidia Tesla V100 GPU: er, alla anslutna med ett Mellanox EDR InfiniBand-nĂ€tverk. Ett liknande men nĂ„got mindre system som heter Sierra vid Lawrence Livermore National Laboratory kommer pĂ„ andra plats med 94,6 petaflops. PĂ„ tredje plats finns Sunway TaihuLight superdator vid Kinas National Supercomputing Center i Wuxi. Den drivs av Sunways SW26010-processorer och fĂ„r 93 petaflops

cci-super-dator2

Faktum Ă€r att hela topp 10 pĂ„ listan Ă€r oförĂ€ndrad sedan juni. Det kraftfullaste nya systemet kommer in som nummer 25 med ett system som heter Advanced Multiprocessing Optimized System (AMOS) vid Rensselaer Polytechnic Institute’s Center for Computational Innovations (CCI).

Återigen Ă€r detta ett IBM Blue Gene / Q-system med Power 9-processorer och Nvidia Tesla V100s. Detta Ă€r ett mindre system med fem rack med ett ihĂ„llande Linpack-maximum pĂ„ 8 petaflops, enligt listan.

(Som alun Àr det fantastiskt att se, och jag kÀndes sÀrskilt som att den fick namnet AMOS, efter Rensselaers första seniorprofessor, Amos Eaton. Det fick mig att skratta, eftersom jag tillbringade mycket tid som grundutbildare och vÀntade pÄ stordator pÄ Amos Eaton Hall. Jag tvivlar pÄ att nÄgon nÄgonsin körde LINPACK pÄ den gamla IBM 360/67, men den nya maskinen Àr förmodligen miljontals gÄnger snabbare; den har 130 000 kÀrnor jÀmfört med ensiffriga siffror pÄ den gamla mainframe.)

Med en titt över hela listan fortsĂ€tter Kina att stiga och har nu 227 av de 500 bĂ€sta installationerna, medan USA stod för 118, nĂ€ra det allra lĂ€gsta. De tre bĂ€sta systemleverantörerna Ă€r Lenovo, Sugon och Inspur – alla baserade i Kina – följt av Cray och HPE (HPE Ă€ger nu Cray). 470 system anvĂ€nder Intel-processorer, ytterligare 14 anvĂ€nder kraftprocessorer och tre anvĂ€nder AMD. Det finns nu tvĂ„ ARM-baserade superdatorer pĂ„ listan: Astra-systemet distribuerat vid Sandia National Laboratories, som Ă€r utrustat med Marvells ThunderX2-processorer och Fujitsus A64FX-prototypsystem i Japan. Nvidia Ă€r fortfarande den dominerande leverantören för acceleratorer, med GPU: er i 136 av de 145 accelererade systemen. Ethernet anvĂ€nds fortfarande i mer Ă€n hĂ€lften av systemen, men de snabbaste brukar anvĂ€nda InfiniBand eller egna anslutningar som Cray Aries och Intel OmniPath.

ÄndĂ„, om det inte finns sĂ„ mycket förĂ€ndring i listan hittills, görs det mycket arbete med nya arkitekturer med mĂ„let att producera en Exascale-maskin inom de nĂ€rmaste tvĂ„ Ă„ren. USA har aviserat arbete pĂ„ tvĂ„ stora nya superdatorer. Det första Ă€r Aurora-projektet vid DOE: s Argonne National Laboratory, som kommer att byggas av Cray (nu en del av HPE) och Intel, medan det andra Ă€r Frontier pĂ„ Oak Ridge, som kommer att köra anpassade AMD Epyc-processorer och Radeon Instinct GPU: er anslutna över en Infinity Fabric-sammankoppling.

Aurora-superdator-1

Fram till SC19 tillkÀnnagav Intel fler detaljer om Aurora-projektet och sa att de kommer att anvÀnda noder som bestÄr av tvÄ 10 nm ++ Sapphire Rapids Xeon-processorer och sex av de nya Ponte Vecchio GPU-acceleratorerna, baserat pÄ den kommande Xe-grafikarkitekturen, samt företagets Optane DC ihÄllande minne. Intel sa att Aurora kommer att stödja över 10 petabyte minne och över 230 petabyte lagring, och kommer att anvÀnda Cray Slingshot-tyget för att ansluta noder över mer Àn 200 rack. (Det gav dock inte exakta siffror för totala noder eller prestanda).

Ponte Vecchio

Intel gav lite mer detaljer om Ponte Vecchio-processorerna och sa att den kommer att byggas runt Xe-arkitekturen, men optimerad för högpresterande datorer och AI-arbetsbelastningar. Denna version kommer att tillverkas med 7 nm-teknik och anvÀnder Intels Foveros 3D- och EMIB-förpackning för att ha flera formar i paketet. Det kommer ocksÄ att stödja minne med hög bandbredd och Compute Express Link (CXL) -anslutning. (Intel hade tidigare sagt att förvÀnta sig en version av Xe-arkitekturen i en konsument-GPU nÄgon gÄng 2020, antagligen pÄ Intels 10nm- eller 14nm-process.)

Intel gav ocksÄ mer information om sitt oneAPI-projekt, bibliotek och en ny sprÄkvariant som heter Data Parallel C ++, som Àr utformad för att hjÀlpa utvecklare att skriva kod som kan köras pÄ processorer, GPU: er och FPGA: er.

nvidia-arm-server-referens-design-plattform-1

För att inte övertrĂ€ffa tillkĂ€nnagav Nvidia – vars GPU: er Ă€r de mest populĂ€ra acceleratorerna – en referensdesign för att bygga servrar som kombinerar ARM-baserade processorer med Nvidia GPU: er. Nvidia arbetade med Ampere, Fujitsu och Marvell – alla som arbetar pĂ„ ARM-baserade serverprocessorer, liksom med Cray och HPE, som har arbetat separat pĂ„ nĂ„gra av de tidiga ARM-baserade HPC-systemen med Nvidia GPU-acceleratorer.

Nvidia introducerade ocksÄ Magnum IO, en programvarupaket som anvÀnder en teknik som kallas GPUDirect för att kringgÄ processorerna nÀr man gÄr in i nÀtverket. liksom ett nytt element som heter GPUDirect Storage som gör detsamma nÀr man fÄr Ätkomst till lagrings- och datafiler för simulering, analys eller visualisering. Magnum IO Àr tillgÀngligt nu, men med GPUDirect Storage-delen planerad till första halvÄret 2020.

AMD sa att fler företag anvÀnder andra generationens EPYC-processorer och Radeon Instinct-acceleratorer, vilket lyfter fram företagets urval för Frontier-datorn, som företaget sa förvÀntades vara den bÀsta prestandadatoren i vÀrlden nÀr den skickas 2021. AMD tillkÀnnagav ocksÄ ett antal andra system som kommer att anvÀnda sina system, inklusive affÀrer med Atos pÄ dess BullSequana XH2000 superdatorer för vÀderprognoser och forskning inom atmosfÀr-, havs- och klientdatorer; och med Cray, som anvÀnder sin Shasta-arkitektur i de kommande Archer2- och Vulcan-systemen i Storbritannien. AMD pratade om ROCm 3.0, en ny version av open source-programvaran för GPU-berÀkning som företaget stöder.

AMD betonade att Microsoft Azure nu erbjuder en förhandsgranskning av en HPC-instans baserad pÄ sin andra generationens Epyc 7742-processor medan Nvidia tillkÀnnagav en ny Azure-instans som kan skala upp till 800 V100 GPU: er sammankopplade över ett enda Mellanox InfiniBand-backend-nÀtverk. Nvidia sa att det anvÀnde 64 av dessa instanser pÄ en pre-release-version av klustret för att trÀna BERT, en populÀr konversations AI-modell, pÄ ungefÀr tre timmar.

JÀmförelse av hjÀrnbrickor

Ett av de mer intressanta tillkÀnnagivandena kom frÄn start Cerebras, som fokuserar pÄ sin Wafer-Scale Engine (WSE), en 300 mm wafer som innehÄller 1,2 biljoner transistorer inklusive 400 000 berÀkningskÀrnor och 18 GB minne pÄ chipet.

Cerebras CS-1

PĂ„ utstĂ€llningen lanserade Cerebras sitt CS-1-system och meddelade att det redan hade levererat det första till Argonne National Laboratory. Företaget betonade att detta system – enligt berĂ€ttelserna innehĂ„ller sex av dessa WSEs tillsammans med minne och nĂ€tverk (berĂ€ttelserna var fel, det finns bara en WSE i varje CS-1) – Ă€r bara 26 tum (15 rackenheter) lĂ„ng, mycket mindre Ă€n rack med GPU-accelererade system. Det Ă€r ett ganska intressant koncept, ett som skiljer sig mycket frĂ„n de andra tillvĂ€gagĂ„ngssĂ€tten.