NVIDIA annoncerer Tesla P40 & Tesla P4 - Neural Network Inference, Big & Small

I løbet af de sidste par måneder har vi set NVIDIAs Pascal GPU'er rullet ud blandt deres forbrugerkort, og nu er det tid for Tesla-linjen at få sin egen Pascal-opdatering. Med henblik herpå har NVIDIA, CEO Jen-Hsun Huang, ved dagens GTC Beijing 2016-keynote annonceret den næste generation af NVIDIAs neurale netværksindledningskort, Tesla P40 og Tesla P4. Disse kort er den direkte efterfølger til de nuværende Tesla M40 og M4 produkter, og med tilføjelsen af ​​Pascal-arkitekturen er NVIDIA lovende et stort spring i inferenspræstationen.

Vi har dækket NVIDIA's tilstedeværelse i og planer for det dybe læringsmarked i nogen tid nu. Samlet set er markedet for dybt lærende et hurtigt voksende marked, og det har vist sig meget vellykket for NVIDIA, da de underliggende neurale netværk kortlægger deres GPU-arkitekturer godt. Som et resultat har en af ​​Pascals fokuser været at forbedre den neurale netværks ydeevne yderligere, primært ved at forbedre ydeevnen til lavere præcisionsoperationer. Virksomheden har allerede haft et stærkt salg på dette marked på den sidste generation af Maxwell-arkitekturen, og med Pascal sigter de på at skubbe ting til et helt nyt niveau.

Inden for NVIDIAs produktstabel til dyb læring har de valgt at opdele det i to kategorier af produkter: træningskort og inferenskort. Neural netværkstræning, som typisk kræver FP16-ydeevne og en hel del hestekræfter, håndteres af Tesla P100-serien, de eneste kort i NVIDIA's lineup med en højtydende FP16-tilstand. I mellemtiden, fordi inferencing kan ske med mindre præcision i mindre skala, har NVIDIA tilbudt M40 / M4-kortene, og nu P40 / P4-kortene til denne opgave. Med træningssiden, der har modtaget sin Pascal-opdatering tidligere i år med lanceringen af ​​P100, er NVIDIA nu ved at indhente inferencesiden med dagens meddelelse om Tesla P40 og P4.

NVIDIA Tesla Inferencing Cards
Tesla P40 Tesla P4 Tesla M40 Tesla M4
CUDA Cores 3840 2560 3072 1024
Baseklokke 1303MHz 810MHz 948MHz 872MHz
Boost Clock 1531MHz 1063MHz 1114MHz 1072MHz
Memory Clock 7.2Gbps GDDR5 6Gbps GDDR5 6Gbps GDDR5 5.5Gbps GDDR5
Hukommelse Bus Bredde 384-bit 256-bit 384-bit 128-bit
VRAM 24GB 8GB 12GB / 24GB 4GB
Enkelt præcision (FP32) 12 TFLOPS 5.5 TFLOPS 7 TFLOPS 2.2 TFLOPS
INT8 47 TOPS 22 TOPS N / A N / A
Transistor Count 12B 7.2B 8B 2.94B
TDP 250W 50W-75W 250W 50W-75W
Køling Passiv Passiv
(Lav profil)
Passiv Passiv
(Lav profil)
Manufacturing Process TSMC 16nm TSMC 16nm TSMC 28nm TSMC 28nm
GPU GP102 GP104 GM200 GM206

I det store og hele er P40 og P4 direkte efterfølgere til deres Maxwell-kolleger. NVIDIA har beholdt den samme formfaktor, de samme power ratings og selvfølgelig det samme målmarked. Hvad er nyt, er Pascal-arkitekturen, de underliggende GPU'er, og hvad de kan gøre for inferencing-ydeevne.

Inferencing selv er ikke en høj præcision operation. Mens de sidste generationens Tesla M-seriekort fungerede med FP32-præcision uden behov - det er hvad hardwareen kunne understøtte - operationerne selv kan gøres på meget mindre. NVIDIA mener, at FP16 er tilstrækkelig til træning, og i mellemtiden kan inferencing gå endnu lavere til 8-bit Integers (INT8). Til dette formål er Pascal GPU'erne, der bruges i disse produkter, GP102 og GP104, supplerende support til højhastigheds-INT8-operationer, der tilbyder et 8-bit vektor-punktprodukt med 32-bit akkumulere. På en anden måde, i stedet for en enkelt FP32 FMA, kan en Pascal CUDA Core udføre 4 INT8 operationer.

Kombineret med de samlede forbedringer i GPU bredde og frekvens på Pascal arkitekturen, og NVIDIA udnytter Tesla P40 & P4 til at tilbyde et stort boost i inferencing ydeevne, den slags ydeevne boost i en enkelt generation, som vi sjældent ser i første omgang , og sandsynligvis vil ikke se igen. På papir, i bedste tilfælde, kan de nyere Tesla-kort tilbyde flere gange forestillingen, med NVIDIA, der specifikt fremmer real-world performance gevinster af 4x i store GPU-klynger.

Bryder tingene ned af kortene selv, vi starter med P40. Efterfølgeren til sidste års M40 er dette kort et 250W-kort, der er designet til højtydende servere, der indeholder et eller flere fuldt profilerede kort. Kortet er baseret på en fuldt aktiveret GP102 GPU, hvilket betyder, at alle 3840 CUDA kerner er aktive, og kan øge op til 1.53GHz. Peak FP32 ydeevne er 12 TFLOPs, mens top INT8 ydeevne er 47 TOPS. Dette sammenligner meget gunstigt med M40, som kunne tilbyde 7 TFLOPS FP32, og manglede INT8 support helt. Pascal-arkitekturen alene giver et betydeligt resultatforøgelse takket være den bredere GPU og højere klokker, men for kunder, der kan benytte INT8-funktionaliteten, er de potentielle præstationsgevinster enorme.

Feeding P40 er 24GB af GDDR5 klokket på 7.2Gbps. Dette er på en 384-bit hukommelsesbuss, så vi kigger på en samlet hukommelsesbåndbredde på 346GB / sek. Nyslig nok har NVIDIA valgt ikke at bruge hurtigere GDDR5X-hukommelse her på trods af de højere marginer af Tesla-produkterne, og det kan have noget at gøre med de afvigelser, som GDDR5X-standarden gør for dens højere ydeevne. Ellers beholder kortet sin forgængers 250W TDP, og en passiv kortlængde / fuld højde kort design.

I mellemtiden er i den mindre ende af spektret Tesla P4. Ligesom M4 før den er dette kort designet til bladeservere. Som følge heraf er kortet både fysisk mindre og lavere strøm for at passe ind i disse servere ved hjælp af et lavprofildesign og en TDP af enten 50W eller 75W afhængigt af konfigurationen.

Under emhætten er P4 baseret på GP104 GPU. Denne GPU er fuldt aktiveret - så vi kigger på 2560 CUDA kerner - dog af kraftmæssige årsager er clockspeed holdes relativt lav, hvilket øger til kun 1.06GHz. Hukommelsesuret reduceres tilsvarende over fuld effekt GP104-produkter, hvor 8GB GDDR5 kører ved 6Gbps. Samlet ydeevne er bedømt til 5.5 TFLOPS for FP32 og 22 TOPS for INT8. Ligesom P40 står P4 betydeligt hurtigere end sin forgænger, hvis udviklere kan bruge INT8-funktionaliteten til gode, da M4 toppede på 2.2 TFLOPS FP32.

Inden for NVIDIAs sortiment er årsagen til at have to kort - udover den indlysende faktor af størrelse - omfanget, både hvad angår fysisk konfiguration og præstationsskalering. Tesla P40 bliver pitchet som den højeste præstation, der er tilgængelig på et enkelt kort, mens Tesla P4 tilbyder bedre tæthed. Forskellen på papir med hensyn til energieffektivitet er ret stor; Tesla P40 kræver omkring 50% mere strøm pr. FLOP på papir. Så installationer, der kan skala massivt på tværs af flere GPU'er, betragtes som det primære marked for P4, mens P40 er rettet mod applikationer, der rækker ud til en håndfuld GPU'er, og som følge heraf behøver de mest kraftfulde GPU'er til rådighed.

Fortsæt sammen med hardwaremeddelelsen. NVIDIA frigiver også et par nye softwareprodukter til at gå med Tesla-kortene. Disse er TensorRT-biblioteket og DeepStream SDK.

TensorRT, der tidligere er kendt som GPU Inference Engine, er et indledende motorbibliotek. NVIDIA har udviklet sig til en stor del for at hjælpe udviklere udnytte Pascals muligheder. Dens vigtigste funktion er, at den er designet til at hjælpe udviklere med at flytte deres allerede uddannede FP16 / FP32 neurale net til INT8-mulighederne i Pascal. I betragtning af at INT8 kan quadruple præstationen af ​​indledning på en NVIDIA GPU, og du kan se, hvorfor NVIDIA er ivrig efter at give udviklere værktøjer til at hjælpe dem med at udnytte lavere præcisionsoperationer.

I mellemtiden er DeepStream SDK et videobearbejdningsbibliotek, der leverer på nogle af NVIDIAs mål for videobehandling lavet på GTC 2016 tidligere i år. En modsætning af slags til TensorRT, det er en SDP, der er en videoanalys med høj ydeevne, der forbinder Pascals videoafkodningsblokke med TensorRT-inference-motoren, så der kan foretages fuld videoafkodning og analyse på et Tesla-kort. NVIDIA ser videoanalyse som et af de store anvendelsessager til store landbrugsbedrifter af uddannede neurale netværk, så det er et andet tilfælde, at de leverer en softwarepakke, der hjælper med at kickstart det marked.

Indpakning af ting, som det er tilfældet med Tesla-produktudgivelser, vil dagens annonceringer foregribe hardware selv med en smule. NVIDIA fortæller os, at Tesla P40 vil være tilgængelig i oktober gennem de sædvanlige OEM'er og kanalpartnere. I mellemtiden vil Tesla P4 blive udgivet en måned senere, i november. NVIDIA har ikke annonceret kortprissætning på nuværende tidspunkt.

Kilde

Giv en kommentar

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.