AMD's Radeon MI60 ResNet 50 AI Benchmark Caveat - Tensor Hindi Ginamit Para sa NVIDIA's V100 GPU

Ang mga talababa ay napakahalaga. Maaari nilang ibunyag ang impormasyon na mahalaga sa pagbibigay-kahulugan sa mga sukatan sa pagpapakita at kung minsan maaari rin nilang ibunyag ang mga caveat na nakatago sa simpleng paningin. Kamakailan inilunsad ng AMD ang unang 7nm GPU ng mundo, ang Radeon Instinct MI60, at ito ay isang milestone sa patuloy na pagbabago ng propesyonal na GPU side ng AMD. Ang mga pagtutukoy ay mahusay at ang pagganap ng kamangha-manghang, ngunit ang mga pagsisikap na inilagay ng mga inhinyero ay maaaring maging overshadowed sa pamamagitan ng isang bagay na nakatago sa footnotes. Ang Tesla V100 GPU ng NVIDIA ay gimped sa benchmark ng ResNet 50.

Ang Tesla V100 ResNet 50 AI benchmark ng NVIDIA ay nagpapatakbo sa AMD Next Horizons kaganapan sa 1 / 3rds ng peak performance dahil sa FP32 mode

Kita n'yo, ang kumpanya ay nag-claim ng maihahambing na pagganap ng pagkakakilanlan kumpara sa TESLA V100 NVIDIA flagship GPU. Naalala ko na nakikita ko ang pagganap ng ResNet 50 bago at malinaw kong matandaan na ito ay nasa 1000s kaya tiningnan ko ang mga footnote at nakita ang dahilan: ang pagsubok ay isinasagawa sa FP32 mode. Ang Tesla V100 ay naglalaman ng mga core ng Tensor at mas malaki ang namamatay na espasyo (ang GCN architecture ay mahirap na limitado sa mga processor ng 4096 stream) at ang mga maaaring magamit upang mapabilis ang hinuha at pag-aaral ng pagganap sa pamamagitan ng maraming mga kadahilanan. Sa katunayan, kung gumagamit ka ng Tensor mode, ang pagganap ng V100 ay higit lamang sa tatlong beses na ng Radeon Instinct MI60.

Wala akong NVIDIA Tesla V100 na nakahiga sa paligid, kaya naabutan ko ang NVIDIA at mabilis nilang ipinadala sa akin ang data para sa partikular na benchmark na tumatakbo sa Tensor mode (ang pagpapayo para sa hindi pagtitiwala sa unang mga benchmark na partido ay nalalapat din dito, ngunit sa kasong ito, maaaring magresulta ang resulta na ito at na-replicated ng mga third party). Ang Radeon Instinct MI60 ayon sa sariling pagsubok ng AMD ay magbubunga tungkol sa mga imahe na 334 bawat segundo, habang ang NVIDIA Tesla V100 ay nagbubunga ng pinakamataas na mga larawan ng 1189 bawat segundo - isang bilis ng 3.5x sa pagganap. Ang speedup na ito ay nasa PCIe mode sa pamamagitan ng paraan: pagpunta sa mga resulta ng SXM2 sa isang mas mataas na kaugalian.

Iyan ay hindi lahat, ang Tesla T4 ng NVIDIA ay maaari talagang magbunga ng mga imahe ng 395 bawat segundo sa Tensor mode pati na rin. Ang NVIDIA ay may mga sumusunod na sasabihin tungkol sa isyu:

"Ang 70W Tesla T4 na may Turing Tensor Cores ay naghahatid ng mas maraming pagganap sa pagsasanay kaysa sa 300W Radeon Instinct MI60. At maaaring maghatid ng Tesla V100 ang 3.7x ng mas maraming pagganap sa pagsasanay gamit ang Tensor Cores at halo-halong katumpakan (FP16 compute / FP32), na nagbibigay-daan sa mas mabilis na oras sa solusyon habang nagtataglay ng mga neural network sa kinakailangang antas ng katumpakan. "- NVIIDA

Matagal nang panahon ang GPU upang mag-disenyo at umunlad at maliwanag na nabulag ang AMD sa departamento ng Tensor. Na sinabi, habang ang Tensor core ay maaaring at pinabilis ang ilang mga kalkulasyon, hindi ito gumagana sa bawat kaso at FP32 pa rin ang isang napakahalagang sukatan ng pagganap. Kaya oo, ang MI60 ay may pagganap na maihahambing sa Tesla V100, ngunit lamang sa FP32 mode. Ang pangkalahatang pagganap ng pagsasanay ay higit na nakahihigit sa V100. Kung ikaw ay isang taong gumagamit ng Tensor upang mapabilis ang pagkakakilanlan pagkatapos ay ang T4 ay magiging higit pa sa isang katunggali kaysa sa V100.

Pananaw ng AMD

Ngayon, nakipagtagpo ako sa AMD upang bigyan sila ng pagkakataon na sagutin at mayroon silang mga sumusunod na sabihin tungkol dito:

"Tungkol sa paghahambing - ang aming mga talababa para sa slide na malinaw na nabanggit ang mga mode upang walang mga isyu doon. Ang rationale ay ang pagsasanay ng FP32 na ginagamit sa karamihan ng mga kaso para sa FaceID upang magkaroon ng 99.99% + katumpakan, halimbawa sa banking at iba pang mga pagkakataon na nangangailangan ng mataas na antas ng kawastuhan. "- AMD

Kinakailangan kong aminin na hindi ako pamilyar sa FaceID at iba pang mga mission-critical training set kaya hindi ako makakapasok sa detalyadong deconstruction ng pahayag na ito. Posible na ang paggamit ng mga input ng FP16 ay gumagawa ng isang pagkakaiba sa huling resulta na hindi ko alam. Nais kong bigyan ang AMD ng benepisyo ng pag-aalinlangan sa mga ito maliban kung ang aking mas mahusay na-kasamahan ay nagpapatunay sa ibang paraan, ngunit kahit na ganoon ang kaso, ang katotohanan ay nananatiling na ito ay isang halimbawa ng mga cherry-picked benchmarks at medyo isang pagkabigo na nagmumula sa isang kumpanya na karaniwang nagtataglay ng isang mataas na moralidad sa mga bagay na ito.

Walang sinuman ang inaasahan sa marketing na materyal upang maging perpekto, at iyon ay isang bagay na masakit kong nalalaman na isasaalang-alang ang kamakailang pag-splattering ng masamang pindutin na mukhang salot sa PC triumvirate. Mahalaga rin na tandaan na ang pahayag na ito ay hindi tila ayon sa sinasabi ng NVIDIA. Alam namin na ang Tensor core ay mahalagang halo-halong katumpakan (FP16 multiply / FP32 makaipon) at NVIDIA inaangkin na dapat mong makuha sa "kinakailangang antas ng katumpakan" gamit ang mga anyways.

Ang post AMD's Radeon MI60 ResNet 50 AI Benchmark Caveat - Tensor Hindi Ginamit Para sa NVIDIA's V100 GPU lumitaw ang unang sa Wccftech.

Mag-iwan ng Sagot

Ang iyong email address ay hindi ilalathala. Ang mga kailangang field ay may markang *