Intel síťová architektura byla oznámena pro nadcházející Xeons

Plnohodnotný procesor je mnohem víc než jen agregace jader. Musí existovat způsob připojení jader k externí paměti, IO - obvykle prostřednictvím PCIe nebo QPI - a podporující mezipaměti L3. V Intel-speak, to je známé jako spojení jádra s uncore.

Různé společnosti používají interní topologii, která tvoří toto propojení. V případě společnosti Intel, jelikož se jedná o procesory Xeon, je tato jádrová propojení známa jako architektura ringbusu, která byla převládající v architektuře Sandy Bridge v 2011.

Tato forma přepojovacího propojení funguje dobře u spotřebitelských procesorů s relativně nízkým počtem jádra. Nicméně, jelikož počet jader stoupá, zdánlivě v prostoru serveru, kroužky jsou stále více přetížené a složité. To je důvod, proč na čipu Xeon založeném na Broadwellově EP přidává společnost Intel další kroužky a přidružené domácí agenty jako jádra od čtyř do 22. Zde ukážeme, jak se hodí do rodiny procesorů HCC na horním konci stupnice jádra.

Problémem, kterým Intel čelí, je zajištění rychlého přenosu rychlosti a stále latence přístupu, jelikož jádro se dále zvyšuje. Je to tento zvýšený jádrový paralelismus, který vede k potenciálním úzkým místům - řídící jednotky paměti jsou na každém kruhu obsaženy a přidává se více z nich, přičemž se stále zhoršuje latence. Výsledek je, že tento budoucí vícejádrový problém přiměl společnost Intel přehodnotit celou filozofii propojení - nechcete, aby na jednom procesoru byly osm kruhů, osm řadičů paměti a několik domácích agentů.

Pochopení status quo nás přivádí k dnešnímu oznámení. Zadejte "síťovou architekturu", která je navržena a začleněna do nadcházejícího systému Xeons.

Spíše než mít stále se rozšiřující počet kroužků používaných k obsluze počtu jádra, který bude nevyhnutelně procházet stávajícím 22, architektura sítě je podle Intel navržena tak, aby byla škálovatelná a modulární bez ohledu na to, počet jádra a šířka pásma paměti.

Tento zjednodušený schéma ukazuje, že každé jádro je navzájem propojeno prostřednictvím matice řádků a sloupců v bodech, přičemž celkový počet je zcela závislý na množství jader.

Ale vše není symetrické. Pokud jádro požaduje informace z mezipaměti L3, která je k němu vertikálně připojena, existuje latence přístupu k jednomu cyklu - je to doslova hned vedle. Avšak jestliže toto jádro vyžaduje informace od LLC, která je rozložena horizontálně a dále vlevo nebo vpravo, pak se při překlenutí sousedních cache vyskytnou tři latence. Bod je, že přes celý čip vyžaduje více než jeden hop na jádro. Společnost Intel si myslí, že i s touto omezenou latencí zůstává nízká jako návrh ringbusu.

Dopravní toky v obou směrech na každém řádku a sloupci a pokud konečný cíl není připraven přijmout informace, pokračuje v okruhu.

Je zajímavé, že spotřeba energie klesá ve srovnání s architekturou vyzvánění, protože síť má mnohem větší vnitřní šířku pásma, a proto může být provozována při nižším napětím / rychlosti při zachování požadované latence. To v konečném důsledku znamená, že více z čipových TDP může být posunuto na jádra místo toho, čímž se zvýší celkový výpočetní výkon v porovnání s prstencovým designem, podle Intel.

Nyní se paměťové řadiče nacházejí na východo-západních částech čipu, zatímco IO je na severu-jih; nejsou seskupeny. Síťová architektura běží na nejvyšší rychlosti, která je v oblasti 1.8GHz-2.4GHz.

Shrnutí toho, co jsme se dosud naučili, je, že síťová architektura byla navržena od základů, aby zajistila, že nadcházející mnohojádrové procesory Intel budou mít dostatek šířky pásma uvnitř čipu a rychlosti IO k odstranění překážek, které by se nevyhnutelně objevily architektura prstencového svazku pokračovala, například, v části 28-core.

Konečným takeaway je, že je méně důležité na straně klienta Core, samozřejmě tam, kde čipová šířka pásma není opravdu problém - síťová architektura je postavena pro škálovatelné Xeons.

Zdroj

Napsat komentář

Tyto stránky používají Akismet k omezení spamu. Zjistěte, jak jsou vaše údaje komentářů zpracovávány.