NVIDIA kondigt de GeForce RTX 30-serie aan: versterker voor gaming, te beginnen met RTX 3080 en RTX 3090

By | 7 september 2020

Met veel verwachting en meer dan een paar lekken kondigt NVIDIA vanmorgen de volgende generatie videokaarten aan, de GeForce RTX 30-serie. Gebaseerd op de gaming- en grafische variant van NVIDIA's Ampere-architectuur en gebouwd op een geoptimaliseerde versie van het 8nm-proces van Samsung, prijst NVIDIA de nieuwe kaarten als het leveren van enkele van hun grootste winsten ooit in gaming-prestaties. Ondertussen zal de nieuwste generatie GeForce ook komen met enkele nieuwe functies om de kaarten verder te onderscheiden van en voor op de Turing-gebaseerde RTX 20-serie van NVIDIA.

Uit de poort kondigt NVIDIA de eerste drie kaarten aan waaruit de nieuwe RTX 30-serie bestaat: de RTX 3090, RTX 3080 en RTX 3070. Deze kaarten worden allemaal binnen de komende anderhalve maand gelanceerd - zij het op enigszins verschillende tijden - met de RTX 3090 en RTX 3080 voorop. De twee kaarten zullen op hun beurt dienen als de opvolgers van respectievelijk NVIDIA's GeForce RTX 2080 Ti en RTX 2080 / 2080S, en zullen nieuwe hoogtepunten bereiken in grafische prestaties, hoewel ze ook nieuwe hoge prijzen behalen in het geval van de RTX 3090.

De eerste kaart die de deur uit gaat, is de GeForce RTX 3080. Nu NVIDIA 2x de prestaties van de RTX 2080 overtreft, zal deze kaart op 17 september in de verkoop gaan voor $ 700. Dat wordt een week later opgevolgd door de nog krachtigere GeFoce RTX 3090, die op 24 september voor $ 1500 in de schappen ligt. Ten slotte zal de RTX 3070, die wordt gepositioneerd als meer een traditionele sweet spot-kaart, volgende maand aankomen op $ 499.

NVIDIA GeForce-specificatie vergelijking
RTX 3090 RTX 3080 RTX 3070 RTX 2080 Ti
CUDA-kernen 10496 8704 5888 4352
Boost Clock 1.7GHz 1.71GHz 1.73GHz 1545MHz
Geheugenklok 19.5Gbps GDDR6X 19Gbps GDDR6X 16Gbps GDDR6 14Gbps GDDR6
Geheugen busbreedte 384-bit 320-bit 256-bit 352-bit
VRAM 24GB 10GB 8GB 11GB
Enkele precisie Perf. 35.7 TFLOP's 29.8 TFLOP's 20.4 TFLOP's 13.4 TFLOP's
Tensor Perf. (KP16) 143 TFLOP's 119 TFLOP's 82 TFLOP's 114 TFLOP's
Tensor Perf. (FP16-Sparse) 285 TFLOP's 238 TFLOP's 163 TFLOP's 114 TFLOP's
Ray Perf. 69 TFLOP's 58 TFLOP's 40 TFLOP's ?
TDP 350W 320W 220W 250W
GPU GA102 GA102 GA104? TU102
Transistor Count 28B 28B ? 18.6B
Buildings Ampère Ampère Ampère Turing
Manufacturing Process Samsung 8nm Samsung 8nm Samsung 8nm TSMC 12nm "FFN"
Lanceerdatum 09 / 24/ 2020 09 / 17/ 2020 10 / 2020 09 / 20/ 2018
Prijs lanceren Adviesprijs: $ 1499 Adviesprijs: $ 699 Adviesprijs: $ 499 Adviesprijs: $ 999
Oprichters $ 1199

Ampere voor gaming: GA102

Zoals traditioneel het geval is voor NVIDIA, was de openbare presentatie van vanochtend geen architectonische diepe duik. Hoewel de puur virtuele presentatie zeker een verandering van tempo was voor een bedrijf dat elke lancering van een videokaart als een feest behandelt, hield NVIDIA vast aan hun succesvolle lancerings-playbook. Dat betekent veel demonstraties, getuigenissen en promotievideo's, samen met enkele overzichten op hoog niveau van verschillende technologieën en technische ontwerpbeslissingen die zijn genomen bij het maken van hun nieuwste generatie GPU's. Het netto resultaat is dat we een goed idee hebben van wat er te wachten staat voor de RTX 30-serie, maar we zullen moeten wachten tot NVIDIA een aantal diepgaande technische briefings aanbiedt om de lege plekken in te vullen en de kern van de zaak waar te maken AnandTech-stijl.

Op een hoog niveau brengen Ampere en de GA102 GPU die in deze topkaarten worden gebruikt, verschillende belangrijke hardware-verbeteringen in de NVIDIA-opstelling. De grootste daarvan is de steeds kleiner wordende omvang van transistors, dankzij een aangepaste versie van Samsung's 8nm-proces. We hebben slechts beperkte informatie over dit proces - vooral omdat het niet al te veel plaatsen is gebruikt - maar op hoog niveau is het Samsungs dichtste traditionele, niet-EUV-proces, afgeleid van hun eerdere 10nm-proces. Alles bij elkaar is NVIDIA een beetje een laatkomer geworden in de overgang naar kleinere processen, maar omdat het bedrijf opnieuw een affiniteit heeft ontwikkeld voor het verzenden van grote GPU's, hebben ze hogere waferopbrengsten nodig (minder defecten) om chips de deur uit te krijgen. .

AmpereArch_575px-1.jpg

Voor de producten van NVIDIA is Samsung's 8nm-proces in ieder geval een volledige generatiesprong van hun vorige proces, TSMC's 12nm "FFN", dat zelf een geoptimaliseerde versie was van TSMC's 16nm-proces. De transistordichtheden van NVIDIA zijn dus aanzienlijk gestegen, wat heeft geleid tot een 28B-transistorchip in het geval van GA102, wat tot uiting komt in het enorme aantal CUDA-kernen en andere beschikbare hardware. Terwijl architecturen van de middengeneratie zoals Turing en Maxwell de meeste van hun voordelen op architectonisch niveau zagen, profiteert Ampere (net als Pascal ervoor) enorm van een behoorlijke sprong in lithografische processen. Het enige probleem bij dit alles is dat Dennard-schaalverdeling is overleden en komt niet meer terug, dus hoewel NVIDIA meer transistors dan ooit in een chip kan stoppen, kruipt het stroomverbruik terug, wat tot uiting komt in de TDP's van de kaarten.

NVIDIA heeft ons geen specifieke matrijsgroottes gegeven voor GA102, maar op basis van enkele foto's zijn we er redelijk zeker van dat het meer dan 500 mm2 is. Die is opmerkelijk kleiner dan de belachelijk grote 754mm2 TU102, maar het is nog steeds een flinke chip en een van de grootste chips die bij Samsung zijn geproduceerd.

Laten we het verder hebben over de Ampere-architectuur zelf. Dit voorjaar voor het eerst geïntroduceerd als onderdeel van NVIDIA's A100-accelerator, tot nu toe hebben we Ampere alleen gezien vanuit een bijpassend rekengericht perspectief. GA100 miste verschillende grafische functies, zodat NVIDIA de hoeveelheid die ruimte toegewezen kon krijgen om te berekenen, dus hoewel grafisch gerichte Ampere GPU's zoals GA102 nog steeds deel uitmaken van de Ampere-familie, zijn er een aanzienlijk aantal verschillen of verschillen tussen de twee. Dat wil zeggen dat NVIDIA tot nu toe veel geheim kon houden over de gaming-kant van Ampere.

Vanuit een rekenperspectief leek Ampere een beetje op Volta ervoor, en hetzelfde kan gezegd worden vanuit een grafisch perspectief. GA102 introduceert geen exotische nieuwe functionele blokken zoals RT-cores of tensor-cores, maar hun mogelijkheden en relatieve afmetingen zijn aangepast. De meest opvallende verandering hier is dat, net als Ampere GA100, de gaming Ampere-onderdelen bijgewerkte en krachtigere tensorkernen erven, die NVIDIA hun derde generatie tensorkernen noemt. Een enkele Ampere-tensorkern kan de tensordoorvoer van een Turing-tensorkern verdubbelen, waarbij NVIDIA in wezen 8 tensorkernen per SM consolideert in 4. Dus per SM zijn de prestaties van de tensorkern stabiel, en hoewel dit enige gevolgen heeft voor hoe dingen werken onder de motorkap, voor gaming Ampere-onderdelen kijk je naar ongeveer evenveel tensor ALU's per SM. Merk op dat dit anders is dan hoe Big Ampere (GA100) is geconfigureerd; dat deel heeft 8 van de 3e generatie tensorkernen per SM, een verdubbeling van de prestaties ten opzichte van zijn voorganger.

Ampere_Perf_Comp_575px.jpg

Ondertussen heeft NVIDIA bevestigd dat de tensorkernen die in GA102 en andere Ampere grafische GPU's gaan, ook sparsity ondersteunen voor meer prestaties, en in feite zijn het deze cijfers die NVIDIA in de presentatie van vandaag citeert. Dus NVIDIA heeft hier niet achtergehouden in termen van tensor-kernfuncties. Maar tot op zekere hoogte betekent dit wel dat de presentatie misleidend was - of in ieder geval niet-appels tot appels - aangezien Turing schaarsheid niet ondersteunde. Als u "dichte" arrays gebruikt, is Ampere slechts een lichte verbetering ten opzichte van Turing.

Over het algemeen onderstreept deze focus op de prestaties van de tensor-core NVIDIA's toewijding aan deep learning en AI-prestaties, aangezien het bedrijf deep learning niet alleen als een motor van hun datacenteractiviteiten ziet, maar ook van hun gamingactiviteiten. We hoeven maar zo ver te gaan als NVIDIA's Deep Learning Super Sampling (DLSS) -technologie om te zien waarom; DLSS vertrouwt gedeeltelijk op de tensorkernen om zoveel mogelijk prestaties te leveren, en NVIDIA is nog steeds op zoek naar meer manieren om hun tensorkernen goed te gebruiken.

AmpereRT_575px.jpg

De ray tracing (RT) -kernen zijn ook versterkt, maar in welke mate weten we niet zeker. Behalve dat er in het algemeen meer van hen zijn, omdat GA102 een groter aantal SM's heeft, wordt gezegd dat de afzonderlijke RT-kernen tot 2x sneller zijn, waarbij NVIDIA vermoedelijk specifiek de prestaties van straal / driehoek-kruising citeert. Er zijn ook enkele korte opmerkingen over RT core concurrency in de presentatiedia's van NVIDIA, maar het bedrijf ging in de korte presentatie niet echt in op het onderwerp, dus we wachten op technische briefings voor meer details.

Over het algemeen zijn snellere RT-cores erg goed nieuws voor de ray tracing-ambities van de game-industrie, aangezien ray tracing hoge prestatiekosten had op kaarten uit de RTX 20-serie. Nu dat gezegd hebbende, niets dat NVIDIA doet, zal die penalty-ray tracing volledig elimineren, punt uit, maar meer en opnieuw gebalanceerde hardware kan helpen die kosten te verlagen.

Als laatste, maar zeker niet de minste, hebben we de kwestie van de shader-cores. Dit is het gebied dat het meest direct belangrijk is voor spelprestaties, en ook het gebied waar NVIDIA vandaag het minst over heeft gezegd. We weten dat de nieuwe kaarten uit de RTX 30-serie een ongelooflijk aantal FP32 CUDA-cores bevatten, en dat komt door wat NVIDIA in hun SM-configuratie bestempelt als "2x FP32". Als resultaat biedt zelfs de RTX 3080 van het tweede niveau 29.8 TFLOP's aan FP32-shaderprestaties, meer dan het dubbele van de laatste generatie RTX 2080 Ti. Kort gezegd: er is een ongelooflijk aantal ALU's in deze GPU's, en eerlijk gezegd veel meer dan ik had verwacht gezien het aantal transistoren.

Schaduwprestaties zijn natuurlijk niet alles, en daarom zijn NVIDIA's eigen prestatieclaims voor deze kaarten lang niet zo hoog als de winst in schaduwprestaties alleen. Maar shaders zijn zeker een groot deel van de tijd een bottleneck, gezien de beschamend parallelle aard van computergraphics. Daarom is het zo'n effectieve strategie om meer hardware (in dit geval meer CUDA-kernen) naar het probleem te gooien.

De grote vraag op dit punt is hoe deze extra CUDA-kernen zijn georganiseerd en wat dit betekent voor het uitvoeringsmodel binnen een SM. We komen hier weliswaar op meer minutieuze technische details in, maar hoe gemakkelijk Ampere die extra kernen kan vullen, zal een cruciale factor zijn in hoe goed het al die teraFLOP's aan prestaties kan extraheren. Wordt dit veroorzaakt door extra IPC-extractie binnen een kettingdraad? Verdere warps uitvoeren? Enzovoort.

Tot slot, terwijl we wachten op meer technische informatie over de nieuwe kaarten, is het opmerkelijk dat geen van de specificatiebladen of ander materiaal van NVIDIA enige aanvullende grafische kenmerken op de kaarten vermeldt. Het strekt tot eer van NVIDIA dat Turing al ver voorop liep en de functies aanbood die het nieuwe DirectX 12 Ultimate / functieniveau 12_2 zouden worden, dat meer dan twee jaar eerder was dan enige andere leverancier. Dus nu Microsoft en de rest van het veld zojuist een inhaalslag hebben gemaakt, is er geen onmiddellijke hogere functieset waar NVIDIA naar kan streven. Toch is het ongebruikelijk om NVIDIA niet een of twee nieuwe grafische functies uit zijn spreekwoordelijke hoed te zien halen, alleen maar om het publiek te verbazen.

De down-low op I / O: PCI Express 4.0, SLI en RTX IO

De introductie van Ampere in NVIDIA's GeForce-kaarten brengt ook de verbeterde I / O-mogelijkheden van Ampere op de consumentenmarkt. En hoewel niets hier op zichzelf waarschijnlijk baanbrekend zal zijn - vooral met betrekking tot de enorme hoeveelheid hardware die NVIDIA naar de prestaties gooit - helpt alles hier verder om NVIDIA's nieuwste generatie kaart goed gevoed te houden.

De belangrijkste functie op de I / O-voorkant is ongetwijfeld de opname van PCI-Express 4.0-ondersteuning. Dit werd geïntroduceerd op NVIDIA's A100-versnellers, dus de opname hier was alles behalve verwacht, maar het markeert niettemin de eerste toename van NVIDIA's PCIe-bandbreedte sinds de lancering van de GTX 680 meer dan 8 jaar geleden. Met een volledige PCIe 4.0 x16-sleuf krijgen de kaarten uit de RTX 30-serie net geen 32 GB / seconde aan I / O-bandbreedte in elke richting, het dubbele van wat de kaarten uit de RTX 20-serie hadden.

Wat betreft de prestatie-impact van PCIe 4.0, we verwachten op dit moment niet veel verschil, aangezien er zeer weinig bewijs is dat Turing-kaarten worden beperkt door PCIe 3.0-snelheden - zelfs PCIe 3.0 x8 is in de meeste gevallen voldoende gebleken. gevallen. De hogere prestaties van Ampere zullen ongetwijfeld de behoefte aan meer bandbreedte doen toenemen, maar niet zozeer. Dat is waarschijnlijk de reden waarom zelfs NVIDIA PCIe 4.0-ondersteuning niet erg hard promoot (hoewel de tweede plaats na AMD hier een factor zou kunnen zijn).

Ondertussen lijkt het erop dat SLI-ondersteuning ons nog minstens één generatie zal bijblijven. De RTX 3090-kaart van NVIDIA bevat een enkele NVLInk-connector voor SLI en andere multi-GPU-doeleinden. Dus multi-GPU-rendering blijft in leven, al is het maar nauwelijks. NVIDIA's presentatie van vandaag ging niet in op verdere details over de functie, maar het is opmerkelijk dat de Ampere-architectuur NVLink 3 introduceert, wat betekent dat als NVIDIA het gebruikt voor de RTX 3090, de 3090 waarschijnlijk tweemaal de NVLink-bandbreedte zal hebben van de RTX 2080 Ti, voor 100 GB / seconde in elke richting.

Over het algemeen vermoed ik dat de opname van een NVLInk-connector op de RTX 3090 meer een spel is voor computergebruikers, van wie velen zullen kwijlen over een snelle kaart van consumentenkwaliteit met 24 GB VRAM, dankzij hoe belangrijk VRAM-capaciteit is voor meer geavanceerde diepe leermodellen. Toch laat NVIDIA nooit een kans voorbijgaan om ook op grafisch gebied te upsellen.

RTX_IO_575px.jpg

Ten slotte kondigt NVIDIA met de lancering van de RTX 30-serie ook een nieuwe reeks I / O-functies aan die ze RTX IO noemen. Op een hoog niveau lijkt dit de NVIDIA-implementatie te zijn van de aanstaande Microsoft Directe opslag API, die net als op de Xbox Series X-console waar deze voor het eerst wordt gestart, directe, asynchrone streaming van activa mogelijk maakt van opslag naar de GPU. Door de CPU voor veel van dit werk te omzeilen, kan DirectStorage (en bij uitbreiding RTX IO) zowel de I / O-latentie als de doorvoer naar de GPU verbeteren door de GPU de benodigde bronnen directer te laten ophalen.

De belangrijkste innovatie hier, naast dat Microsoft een gestandaardiseerde API voor de technologie levert, is dat Ampere GPU's in staat zijn om activa direct te decomprimeren. Game-items worden vaak gecomprimeerd voor opslagdoeleinden - zelfs de minste Flight Simulator 2020 neemt in beslag meer SSD-ruimte - en momenteel die middelen decomprimeren tot iets dat de GPU kan gebruiken, is de taak van de CPU. Door het van de CPU te verwijderen, wordt het niet alleen vrijgemaakt voor andere taken, maar uiteindelijk wordt een tussenpersoon volledig verwijderd, wat helpt om de streamingprestaties van activa en de laadtijden van games te verbeteren.

Pragmatisch gezien weten we al dat deze technologie naar de Xbox Series X en PlayStation 5 komt, dus dit zijn grotendeels Microsoft en NVIDIA die gelijk blijven met de consoles van de volgende generatie. Niettemin vereist het enkele echte hardwareverbeteringen aan de GPU-kant van de dingen om al deze I / O-verzoeken af ​​te handelen en om verschillende soorten activa efficiënt te kunnen decomprimeren.

Verbeteringen in ampère-energie-efficiëntie: 1.9x? Waarschijnlijk niet

Naast de algehele prestaties van de videokaart, was de tweede grote technologische pijler van NVIDIA als onderdeel van hun presentatie de algehele energie-efficiëntie. Omdat energie-efficiëntie een hoeksteen is van het GPU-ontwerp - grafische workloads zijn beschamend parallel en de GPU-prestaties worden beperkt door het totale stroomverbruik - is energie-efficiëntie een veelvoorkomende focus bij alle GPU-lanceringen. En voor de lancering van de RTX 30-serie zorgde NVIDIA ervoor dat er wat aandacht aan werd besteed.

Over het algemeen beweert NVIDIA dat Ampere een 1.9x hogere energie-efficiëntie biedt. Voor een volledige sprong in de productieprocesknooppunten in het post-Dennard-tijdperk, is dit eigenlijk een beetje een verrassende bewering. Het is verre van onmogelijk, hoor, maar het is meer dan wat NVIDIA ervoor uit Turing of Pascal heeft gehaald.

Maar als je wat meer in de beweringen van NVIDIA graaft, ziet deze 1.9x-bewering er in toenemende mate overdreven uit - of op zijn minst cherry-geplukt.

Ampere_PPW_575px.jpg

De directe eigenaardigheid hier is dat energie-efficiëntie normaal gesproken wordt gemeten op een vast niveau van stroomverbruik, niet op een vast prestatieniveau. Nu het stroomverbruik van een transistor ongeveer met de kubus van de spanning toeneemt, kan een "breder" deel zoals Ampere met meer functionele blokken zichzelf klokken op een veel lagere frequentie om dezelfde algehele prestaties te behalen als Turing. In wezen vergelijkt deze grafiek Turing op zijn slechtst met Ampere op zijn best, met de vraag 'hoe zou het zijn als we Ampere downclockden om zo langzaam te zijn als Turing' in plaats van 'hoeveel sneller is Ampere dan Turing onder dezelfde beperkingen' . Met andere woorden, de grafiek van NVIDIA biedt ons geen prestatievergelijking van appels tot appels bij een specifiek stroomverbruik.

Als je echt een vergelijking met een vast wattage maakt, ziet Ampere er niet zo goed uit in de grafiek van NVIDIA. Terwijl Turing in dit voorbeeld 60 fps haalt bij 240 W, heeft de prestatiecurve van Ampere deze op ongeveer 90 fps. Wat zeker is, dit is nog steeds een aanzienlijke verbetering, maar het is slechts een verbetering van 50% in prestaties per watt. Uiteindelijk zal de exacte verbetering in energie-efficiëntie afhangen van waar in de grafiek je een steekproef maakt, maar het is duidelijk dat NVIDIA's energie-efficiëntie verbeteringen met Ampere, zoals gedefinieerd door meer normale statistieken, niet 90% zullen zijn zoals NVIDIA's dia beweert.

Dit alles wordt weerspiegeld in de TDP-beoordelingen van de nieuwe RTX 30-serie kaarten. De RTX 3090 trekt maar liefst 350 watt aan vermogen, en zelfs de RTX 3080 trekt 320W. Als we de prestatieclaims van NVIDIA op hun woord nemen - dat RTX 3080 tot 100% meer prestaties biedt dan RTX 2080 - dan komt dat met een toename van 49% in stroomverbruik, voor een effectieve toename van de prestatie-per-watt met slechts 34% . En de vergelijking voor de RTX 3090 is zelfs nog strenger, waarbij NVIDIA een prestatieverbetering van 50% claimt voor een 25% toename van het stroomverbruik, voor een netto stroomefficiëntiewinst van slechts 20%.

Uiteindelijk is het duidelijk dat een groot deel van NVIDIA's prestatieverbeteringen voor de Ampere-generatie komt van hogere limieten voor stroomverbruik. Met 28B-transistors zullen de kaarten snel zijn, maar er is meer stroom nodig dan ooit tevoren om ze allemaal op te lichten.

GDDR6X: koken met PAM

Buiten de core GPU-architectuur zelf, introduceert GA102 ook ondersteuning voor een ander nieuw geheugentype: GDDR6X. GDDR6X, een door Micron en NVIDIA ontwikkelde evolutie van GDDR6, is ontworpen om hogere geheugenbussnelheden (en dus meer geheugenbandbreedte) mogelijk te maken door gebruik te maken van multi-level signalering op de geheugenbus. Door deze strategie toe te passen, kunnen NVIDIA en Micron de grenzen van kosteneffectieve discrete geheugentechnologieën blijven verleggen en zo het beest blijven voeden dat NVIDIA's nieuwste generatie GPU's is. Dit is de derde geheugentechnologie in evenveel generaties voor NVIDIA, die is overgegaan van GDDR5X naar GDDR6 naar GDDR6X

Micron heeft vorige maand per ongeluk de bonen over het onderwerp gemorst, toen ze enkele vroege technische documenten over de technologie publiceerden. Door gebruik te maken van Pulse Amplitude Modulation-4 (PAM4), kan GDDR6X een van de vier verschillende symbolen per klok verzenden, in feite twee bits per klok verplaatsen in plaats van de gebruikelijke één bit per klok. Kortheidshalve zal ik die discussie niet helemaal herhalen, maar ik zal de hoogtepunten bespreken.

Een zeer hoog niveau, wat PAM4 doet versus NRZ (binaire codering) is om een ​​pagina uit de MLC NAND playbook, en het dubbele aantal elektrische toestanden dat een enkele cel (of in dit geval transmissie) zal behouden. In plaats van traditionele 0/1 hoog / laag signalering, gebruikt PAM4 4 signaalniveaus, zodat een signaal kan coderen voor vier mogelijke twee-bit patronen: 00/01/10/11. Hierdoor kan PAM4 twee keer zoveel gegevens vervoeren als NRZ zonder de transmissiebandbreedte te verdubbelen, wat een nog grotere uitdaging zou zijn geweest.

NRZ_v_PAM4-Labeled_575px.png
NRZ versus PAM4 (Basisschema Met dank aan Intel)

PAM4 vereist op zijn beurt meer complexe geheugencontrollers en geheugenapparaten om de meerdere signaalstatussen te verwerken, maar het maakt ook een back-up op de geheugenbusfrequentie, wat enkele andere aspecten vereenvoudigt. Misschien wel het belangrijkste voor NVIDIA op dit moment is dat het energiezuiniger is en ongeveer 15% minder stroom per bit bandbreedte in beslag neemt. Zeker, het totale DRAM-stroomverbruik is nog steeds hoger, want dat wordt ruimschoots gecompenseerd door de toename van de bandbreedte, maar elke joule die op DRAM wordt bespaard, is een andere joule die in plaats daarvan aan de GPU kan worden besteed.

GDDR6X_Power_2b_575px.png

Volgens de documenten van Micron heeft het bedrijf de eerste generatie van hun GDDR6X ontworpen om naar 21 Gbps te gaan; NVIDIA houdt de zaken echter een beetje conservatiever en stopt bij 19.5 Gbps voor de RTX 3090 en 19 Gbps voor de RTX 3080. Zelfs bij die snelheden is dat nog steeds een toename van 36% -39% in geheugenbandbreedte ten opzichte van de vorige generatie kaarten, uitgaande van geheugenbussen van identieke grootte. Over het algemeen blijft dit soort vooruitgang de uitzondering op de norm; historisch gezien zien we doorgaans niet zo'n grote toename in geheugenbandbreedte over opeenvolgende generaties. Maar met veel meer SM's om te voeden, kan ik me alleen maar voorstellen dat de productteams van NVIDIA daar blij mee zijn.

GDDR6X heeft echter een enigszins onmiddellijk nadeel: capaciteit. Hoewel Micron plannen heeft voor 16Gbit-chips in de toekomst, maken ze om vandaag te beginnen alleen nog 8Gbit-chips in de toekomst. Dit heeft dezelfde dichtheid als de geheugenchips op NVIDIA's RTX 20-serie kaarten, en hun GTX 1000-serie kaarten trouwens. Er zijn dus geen upgrades van de "vrije" geheugencapaciteit, althans voor deze eerste kaarten. RTX 3080 krijgt slechts 10 GB VRAM versus 8 GB op RTX 2080, en dat is dankzij het gebruik van een grotere 320-bits geheugenbus (dat wil zeggen 10 chips in plaats van 8). Ondertussen krijgt RTX 3090 24 GB VRAM, maar alleen door 12 paar chips in clamshell-modus te gebruiken op een 384-bits geheugenbus, wat goed is voor meer dan twee keer zoveel geheugenchips als op RTX 2080 Ti.

HDMI 2.1 en AV1 zijn binnen, VirtualLink is uit

Op het I / O-front van het display brengen Ampere en de nieuwe GeForce RTX 30-serie kaarten ook een aantal opmerkelijke veranderingen aan. De belangrijkste daarvan is dat eindelijk HDMI 2.1-ondersteuning is aangekomen. Wordt al verzonden op tv's (en ingesteld om te worden verzonden in de consoles van dit jaar), HDMI 2.1 brengt een paar functies naar de tafel, met name ondersteuning voor veel grotere kabelbandbreedte. Een HDMI 2.1-kabel kan tot 48 Gbps aan gegevens vervoeren - meer dan 2.6x zoveel als HDMI 2.0 - waardoor veel hogere schermresoluties en vernieuwingsfrequenties mogelijk zijn, zoals 8K-tv's of 4K-schermen met een snelheid vanaf 165 Hz. Deze aanzienlijke sprong in bandbreedte zet HDMI zelfs voor op DisplayPort, althans voorlopig; DisplayPort 1.4 biedt slechts ongeveer 66% van de bandbreedte, en terwijl DisplayPort 2.0 dat uiteindelijk zal verslaan, lijkt het erop dat Ampere net iets te vroeg is voor die technologie.

Met dat alles gezegd, wacht ik nog steeds op bevestiging van NVIDIA of ze een volledige 48 Gbps-signaleringssnelheid ondersteunen met hun nieuwe GeForce-kaarten. Sommige HDMI 2.1-tv's worden geleverd met ondersteuning voor lagere gegevenssnelheden, dus het is niet ondenkbaar dat NVIDIA hier hetzelfde doet.

Het andere kenmerkende kenmerk van HDMI 2.1 vanuit het oogpunt van gaming is ondersteuning voor variabele verversingsfrequenties via HDMI. Deze functie is echter niet exclusief voor HDMI 2.1, en is inderdaad al teruggestuurd naar NVIDIA's RTX 20-kaarten, dus hoewel ondersteuning ervoor hier nuttiger zal zijn met de grotere kabelbandbreedte, is het technisch gezien geen nieuwe functie voor NVIDIA's kaarten .

Ondertussen Virtual Link poorten, die zijn geïntroduceerd op de RTX 20-serie kaarten, zijn onderweg naar buiten. De poging van de industrie om een ​​poort te bouwen die video, data en stroom combineert in een enkele kabel voor VR-headsets is mislukt en geen van de drie grote headsetfabrikanten (Oculus, HTC, Valve) gebruikte de poort. U zult de poort dus niet terugvinden op kaarten uit de RTX 3-serie.

AV1_575px.jpg

Nu we het toch over video hebben, heeft NVIDIA ook bevestigd dat de nieuwe Ampere GPU's een bijgewerkte versie van hun NVDEC-videodecoderingsblok bevatten. Door het blok te brengen naar wat NVIDIA Gen 5 noemt, heeft de chipmaker decoderingsondersteuning toegevoegd voor de nieuwe AV1-videocodec.

De opkomende royaltyvrije codec zal naar verwachting de de facto opvolger worden van H.264 / AVC, terwijl HEVC al een aantal jaren op de markt is (en al wordt ondersteund in alle recente GPU's), de De krankzinnige royalty-situatie rond de codec heeft de goedkeuring ervan ontmoedigd. Daarentegen zou AV1 een vergelijkbare of iets betere kwaliteit moeten leveren dan HEVC zonder royalty's voor gebruik bij de distributie, waardoor het veel smakelijker wordt voor leveranciers van inhoud. Het enige nadeel van AV1 tot nu toe is dat het behoorlijk CPU-zwaar is, waardoor ondersteuning voor hardwaredecodering belangrijk is, zelfs op high-end desktops, om te voorkomen dat de CPU wordt vastgebonden en om een ​​soepele, probleemloze weergave te garanderen.

NVIDIA is hier niet al te diep ingegaan op wat hun AV1-ondersteuning inhoudt, maar een aparte blogpost noemt 10-bits kleurondersteuning en 8K-decodering, dus het klinkt alsof NVIDIA zijn bases gedekt heeft.

Ondertussen is er geen melding gemaakt van verdere verbeteringen aan het NVENC-blok van het bedrijf. Dat is voor het laatst herzien voor de lancering van Turing, waardoor de reikwijdte van de HEVC-coderingsmogelijkheden van NVIDIA en de algehele beeldkwaliteit van HEVC & H.264 zijn verbeterd. Anders zijn we nog steeds een generatie te vroeg voor hardware AV1-codering, aangezien sommige van de unieke eigenschappen van die codec hardwarecodering moeilijker maken om te kraken.

GenLeap_575px.jpg

Origineel artikel