AMDs Radeon MI60 ResNet 50 AI Benchmark Caveat - Tensor blev ikke brugt til NVIDIAs V100 GPU

Fotnoter er meget vigtige. De kan afsløre informationer, der er afgørende for at fortolke metrics på displayet, og nogle gange kan de også afsløre advarsler gemt i almindeligt syn. AMD lancerede for nylig verdens første 7nm GPU, Radeon Instinct MI60, og det er en milepæl i den igangværende omdannelse af AMDs professionelle GPU side. Specifikationerne er flotte og præstationen spektakulære, men indsatsen fra ingeniører kan blive overskygget af noget gemt i fodnoter. NVIDIAs Tesla V100 GPU blev overspundet i ResNet 50 benchmark.

NVIDIAs Tesla V100 ResNet 50 AI-benchmark i AMD Next Horizons-arrangementet kørte på 1 / 3rds med høj ydeevne på grund af FP32-tilstanden

Se, selskabet havde påberåbt sig sammenlignelige præstationspræstationer i forhold til NVIDIAs Tesla V100 flagskibs GPU. Jeg huskede at se ResNet 50 præstation før og kunne tydeligt huske det var i 1000'erne, så jeg kiggede gennem fodnoter og fandt årsagen: testen blev udført i FP32-tilstand. Tesla V100 indeholder Tensor-kerner og betydeligt mere dieplads (GCN-arkitekturen er begrænset til 4096-streamprocessorer), og de kan bruges til at accelerere inferencer og læringsresultater af flere faktorer. Faktisk, hvis du bruger Tensor-tilstand, er V100's ydelse lige over tre gange så meget som Radeon Instinct MI60.

Jeg havde ikke en NVIDIA Tesla V100 liggende rundt, så jeg nåede ud til NVIDIA, og de sendte mig hurtigt dataene for den pågældende benchmark i Tensor-tilstand (den rådgivende for ikke-tillid til første part benchmarks gælder her også, men i dette tilfælde, dette resultat kan og er blevet gentaget af tredjeparter). Radeon Instinct MI60 ifølge AMDs egen test giver cirka 334 billeder per sekund, mens NVIDIA Tesla V100 giver maksimalt 1189 billeder per sekund - en 3.5x-hastighed i performance. Denne hastighed er i PCIe-tilstand forresten: at gå til SXM2 resulterer i en endnu højere differential.

Det er ikke alt, NVIDIAs Tesla T4 kan faktisk give 395-billeder pr. Sekund i Tensor-tilstand. NVIDIA havde følgende at sige om problemet:

"70W Tesla T4 med Turing Tensor Cores leverer mere træningsydelse end 300W Radeon Instinct MI60. Og Tesla V100 kan levere 3.7x mere træningsydelse ved hjælp af Tensor Cores og mixed precision (FP16 compute / FP32 akkumulere), hvilket giver hurtigere løsningstid, samtidig med at konvergerende neurale netværk til de nødvendige nøjagtighedsniveauer. "- NVIIDA

GPU'er tager lang tid at designe og udvikle, og det er klart, at AMD blev blindsided i Tensor-afdelingen. Når det er sagt, mens Tensor-kerner kan og fremskynder visse beregninger, virker de ikke i alle tilfælde, og FP32 er stadig en meget vigtig metrisk præstation. Så ja, MI60 har præstationer, der kan sammenlignes med Tesla V100, men kun i FP32-tilstand. Samlet træningsydelse er langt bedre på V100. Hvis du er en person, der bruger Tensor til at accelerere iferencen, så vil T4 være mere af en konkurrent end V100.

AMD's synspunkt

Nu rejste jeg også ud til AMD for at give dem en chance for at svare, og de havde følgende at sige om det:

"Hvad angår sammenligningen - bemærkede vores fodnoter til det dias tydeligt de tilstande, så ingen problemer der. Begrundelse er, at FP32 træning bruges i de fleste tilfælde for FaceID til at have 99.99% + nøjagtighed, for eksempel i banker og andre tilfælde, der kræver høj nøjagtighed. "- AMD

Jeg må indrømme, at jeg ikke er bekendt med FaceID og andre missionskritiske træningssæt, så jeg vil ikke gå ind i en detaljeret dekonstruktion af denne erklæring. Det er muligt, at brugen af ​​FP16-indgange gør en forskel til det endelige resultat, som jeg ikke er opmærksom på. Jeg er villig til at give AMD fordelene ved tvivl om dette, medmindre mine bedre jævnaldrende viser andet, men selv om det er tilfældet, er der stadig en kendsgerning, at dette var et eksempel på kirsebærvalgte benchmarks og er lidt skuffet fra et firma der normalt bevarer en høj moralsk grund i disse ting.

Ingen forventer, at markedsføringsmateriale er perfekt, og det er noget, jeg er smerteligt opmærksom på overvejer den seneste splattering af dårlig presse, der synes at plage PC triumviratet. Det er også værd at bemærke, at denne erklæring ikke synes at være i overensstemmelse med, hvad NVIDIA siger. Vi ved, at Tensor-kerner er i det væsentlige blandet præcision (FP16 multiplicer / FP32 akkumulerer) og NVIDIA hævder, at du skal kunne komme til det "krævede niveau af nøjagtighed" ved hjælp af disse alligevel.

Stillingen AMDs Radeon MI60 ResNet 50 AI Benchmark Caveat - Tensor blev ikke brugt til NVIDIAs V100 GPU dukkede først på Wccftech.

Giv en kommentar

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.