NVIDIA oznamuje Tesla P40 a Tesla P4 - dedukce neuronových sítí, velká a malá

V posledních několika měsících jsme viděli, že grafické procesory Pascal NVIDIA jsou mezi svými spotřebitelskými kartami a nyní je čas, aby linka Tesla získala vlastní Pascalovou aktualizaci. Za tímto účelem oznámila generální ředitelka NVIDIA Jen-Hsun Huang dnešní GTC Peking 2016 novou generaci NVIDIA neuronových síťových inferenčních karet Tesla P40 a Tesla P4. Tyto karty jsou přímým nástupcem aktuálních produktů Tesla M40 a M4, a s přidáním architektury Pascal, NVIDIA slibuje významný skok v inferenční výkonnosti.

Představujeme NVIDIU přítomnost a plány na trh s hlubokým učením po nějakou dobu. Celkově trh s hlubokým učením je rychle rostoucím trhem a ten, který se pro NVIDIA ukázal jako velmi úspěšný, jako základní neuronové sítě, dobře mapuje architekturu GPU. Výsledkem toho bylo, že jedním z hlavních cílů Pascalu bylo dále zlepšit výkon neuronových sítí, především zlepšením výkonnosti operací s nižší přesností. Společnost již na tomto trhu zaznamenala silné tržby na architektuře Maxwell poslední generace a Pascal se snaží přenést věci na zcela novou úroveň.

V rámci produktové řady NVIDIA pro hluboké učení se rozhodly rozdělit na dvě kategorie produktů: tréninkové karty a inferenční karty. Trénování neuronových sítí, které obvykle vyžaduje výkon FP16 a spoustu výkonů, je ovládáno podobně jako řada Tesla P100, jediná karta v řadě NVIDIA s vysoce výkonným režimem FP16. Mezitím, protože v menší míře lze provádět inferenci s menší přesností, nabízí NVIDIA karty M40 / M4 a nyní karty P40 / P4 pro tento úkol. S výcvikovou stranou, která obdržela svou aktualizaci Pascal na začátku letošního roku s uvedením P100u, NVIDIA nyní vystihuje vyvozovací stranu s dnešním oznámením Tesla P40 a P4.

NVIDIA Tesla Inferencing Cards
Tesla P40Tesla P4Tesla M40Tesla M4
CUDA Cores3840256030721024
Základní hodiny1303MHz810MHz948MHz872MHz
Boost Clock1531MHz1063MHz1114MHz1072MHz
Paměťové hodiny7.2Gbps GDDR56Gbps GDDR56Gbps GDDR55.5Gbps GDDR5
Šířka paměťové sběrnice384-bit256-bit384-bit128-bit
VRAM24GB8GB12GB / 24GB4GB
Jednoduchá přesnost (FP32)12 TFLOPS5.5 TFLOPS7 TFLOPS2.2 TFLOPS
INT847 TOPS22 TOPSN / AN / A
Počet tranzistorů12B7.2B8B2.94B
TDP250W50W-75W250W50W-75W
ChlazeníPasivníPasivní
(Nízký profil)
PasivníPasivní
(Nízký profil)
Výrobní procesTSMC 16nmTSMC 16nmTSMC 28nmTSMC 28nm
GPUGP102GP104GM200GM206

Celkově jsou P40 a P4 přímými nástupci jejich protějšků Maxwell. NVIDIA si zachovala stejný tvůrčí faktor, stejné výkonnostní ratingy a samozřejmě stejný cílový trh. Co je nového, je Pascalova architektura, základní GPU a to, co mohou dělat, pokud jde o inferenční výkon.

Samotná inference není operace s vysokou přesností. Zatímco poslední generace karet Tesla řady M pracuje bezpodmínečně přesně podle FP32u - to je to, co může hardware podporovat - operace sami mohou být prováděny mnohem méně. NVIDIA se domnívá, že FP16 postačuje k tréninku a mezitím může dojít k nižšímu počtu inferencí na 8-bit Integer (INT8). Za tímto účelem jsou GPU Pascal, které se používají v těchto produktech, GP102 a GP104 a zahrnují další podporu pro vysokorychlostní operace INT8 a nabízejí produkt 8-bitového vektorového bodu s akumulací bitů 32. Jiným způsobem, místo jednoho FP32 FMA, Pascal CUDA Core může provádět operace 4 INT8.

V kombinaci s celkovým zlepšením šířky a frekvence GPU v architektuře Pascal a technologie NVIDIA Tesla P40 & P4 nabízejí výrazný nárůst výkonu v oblasti inferencí, což je druh zvýšení výkonnosti v jediné generaci, kterou jsme zřídka viděli na prvním místě , a pravděpodobně už to nevidí. Na papíře, v nejlepším případě, novější karty Tesla mohou nabízet až několikanásobný výkon, přičemž NVIDIA specificky podporuje skutečný zisk 4x ve velkých GPU clusterech.

Při rozbití věcí na kartách sami začneme s P40. Jako nástupce loňského roku M40 je tato karta plně funkční karta 250W navržená pro vysoce výkonné servery s jednou nebo více kartami s plným profilem. Karta je založena na plně aktivovaném GP102 GPU, což znamená, že všechna jádra 3840 CUDA jsou aktivní a mohou zvýšit až na 1.53GHz. Špičkový výkon FP32 je 12 TFLOPs, zatímco špičkový výkon INT8 je 47 TOPS. To je velmi příznivé pro M40, který by mohl nabídnout 7 TFLOPS FP32, a postrádal podporu INT8 zcela. Samotná architektura Pascalu nabízí výrazné zvýšení výkonu díky širšímu GPU a vyšším hodinkám, ale pro zákazníky, kteří mohou využívat funkčnost INT8, jsou potenciální zisky výkonnosti obrovské.

Napájení P40 je 24GB GDDR5 na 7.2Gbps. Toto je na sběrnici paměti 384-bit, takže se díváme na celkovou šířku pásma paměti 346GB / s. Je zajímavé, že NVIDIA se rozhodla nepoužívat rychlejší paměť GDDR5X i přes vyšší okraje produktů Tesla a to může mít něco společného se smlouvami, které standard GDDR5X dává pro vyšší výkon. Jinak si karta zachovává 250W TDP svého předchůdce a pasivní design s plnou délkou / plnou výškou karty.

Mezitím na menším konci spektra je Tesla P4. Podobně jako před M4 je tato karta určena pro blade servery. Výsledkem je, že karta je fyzicky menší a má nižší výkon, aby se vešla do těchto serverů s využitím nízkoprofilového designu a TDP buď 50W nebo 75W v závislosti na konfiguraci.

Pod kapotou je P4 založen na grafickém GP104 GPU. Tato GPU je plně aktivní - takže se podíváme na jádra 2560 CUDA - nicméně z důvodů napájení je poměr hodinových otáček poměrně nízký, čímž se zvyšuje jen na 1.06GHz. Paměťové hodiny jsou podobně sníženy o plné výkonové produkty GP104, s 8GB GDDR5 běžící na 6Gbps. Celkový výkon je stanoven na 5.5 TFLOPS pro FP32 a 22 TOPS pro INT8. Stejně jako P40, je P4 výrazně rychlejší než jeho předchůdce, pokud vývojáři mohou správně využívat funkci INT8, protože M4 skončil na 2.2 TFLOPS FP32.

V rámci řady NVIDIA je důvod, proč mají dvě karty - kromě zřejmého faktoru velikosti - měřítko jak z hlediska fyzické konfigurace, tak i z hlediska výkonu. Tesla P40 je nejvyšší výkon v jedné kartě, zatímco Tesla P4 nabízí lepší hustotu. Rozdíl na papíře, pokud jde o energetickou účinnost, je značný; Tesla P40 vyžaduje o 50% více výkonu na FLOP na papíře. Takže instalace, které mohou masivně měřit více GPU, jsou považovány za hlavní trh pro P4, zatímco P40 je zaměřen na aplikace, které se rozšiřují na hrst GPU a v důsledku toho potřebují nejsilnější dostupné GPU.

Pohybující se spolu s hardware oznámením NVIDIA také uvolňuje pár nových softwarových produktů, které mají jít s kartami Tesla. Jedná se o knihovnu TensorRT a DeepStream SDK.

TensorRT, dříve známý jako GPU Inference Engine, je inferenční knihovna motorů NVIDIA vyvinula z velké části na pomoc vývojářům využívat schopnosti Pascalu. Jeho klíčová vlastnost je, že je navržena tak, aby vývojářům pomohla přesunout své již vyškolené neuronové sítě FP16 / FP32 do funkcí INT8 společnosti Pascal. Vzhledem k tomu, že INT8 dokáže čtyřnásobně vyvodit důsledky na NVIDIA GPU a uvidíte, proč NVIDIA touží poskytnout vývojářům nástroje, které jim pomohou využívat operace s nižší přesností.

Mezitím je DeepStream SDK knihovna pro zpracování videa, která přináší některé z cílů NVIDIA pro video zpracování, které byly provedeny v GTC 2016 na začátku tohoto roku. Protějšek odrůdy TensorRT je vysoce výkonná sada SDK pro analýzu videa, která propojuje bloky dekódování videa Pascal s inferenčním motorem TensorRT, aby umožnila plnou dekódování a analýzu videa na kartě Tesla. Divize NVIDIA považuje video analýzu za jeden z velkých případů využití pro velké farmy vyškolených neuronových sítí, takže se jedná o další případ, kdy poskytují softwarový balíček, který pomůže nastartovat tento trh.

Obalové věci, jak je běžné s verzemi produktů Tesla, budou dnes oznamy trochu předcházet hardware. NVIDIA nám říká, že Tesla P40 bude k dispozici v říjnu prostřednictvím běžných výrobců OEM a kanálových partnerů. Mezitím Tesla P4 bude vydán o měsíc později, v listopadu. NVIDIA v tuto chvíli nezaznamenala cenu za karty.

Zdroj

Napsat komentář