Séria GPU Instinct od AMD sa stáva populárnou v komunite počítačov a AI. Tu je dôvod.
Niet pochýb o tom, že NVIDIA naďalej dominuje v paralelnom výpočtovom priestore so svojimi rôznymi populárnymi sériami GPU. Ale s akcelerátormi AI Instinct od AMD, ktoré vybavujú dva najnovšie a najväčšie superpočítače (Frontier a El Capitan) a rastúca podpora komunity pre ich open-source platformu ROCm, NVIDIA možno našla svojho najväčšieho rivala.
Čo presne sú teda akcelerátory AI Instinct od AMD? Čo ich robí výkonnými a ako sú na tom v porovnaní s GPU Tensor od NVIDIA?
Čo je to procesor AMD Instinct?
Procesory Instinct od AMD sú podnikový hardvér používaný na vysokovýkonné výpočty (HPC) a spracovanie akcelerované AI. Na rozdiel od bežných GPU pre spotrebiteľa sú GPU Instinct špecializované na lepšie zvládnutie učenia AI a iných vysokovýkonných úloh prostredníctvom softvérových a hardvérových inovácií.
Séria grafických procesorov AMD Instinct bola použitá na napájanie prvého superpočítača, ktorý prelomil bariéru Exascale, s výkonom 1,1 EFLOP pri operáciách s dvojnásobnou presnosťou za sekundu. Superpočítače využívajúce GPU Instinct sa v súčasnosti využívajú na výskum liečby rakoviny, udržateľnej energie a klimatických zmien.
Ako procesory Instinct urýchľujú AI a HPC
Pre najvýkonnejšie bežné servery a superpočítače na svete na dosiahnutie spracovania na úrovni Exascale museli byť akcelerátory Instinct od AMD vybavené niekoľkými technologickými vylepšeniami a inováciami.
Poďme diskutovať o niektorých nových a aktualizovaných technológiách používaných na GPU AMD Instinct.
1. Vypočítajte DNA (CDNA)
Nedávne akcelerátory AMD Instinct (od MI100) využívajú architektúru CDNA spoločnosti.
CDNA sa primárne zameriava na funkcie, ako je paralelné spracovanie, hierarchia pamäte a optimalizovaný výpočtový výkon prostredníctvom technológie Matrix Core. Dokonca aj HPC a AI alebo strojové učenie, ktoré beží na jednotlivých serveroch, môže byť podporované CDNA, ako aj obrovské počítače Exascale.
Technológia Matrix Core od AMD urýchľuje učenie AI podporou operácií so zmiešanou presnosťou. Schopnosť počítať s rôznou presnosťou umožňuje GPU Instinct efektívne počítať maticové operácie na základe potrebnej úrovne presnosti.
Medzi najpopulárnejšie formáty s presnosťou výpočtu patria FP64, FP32, FP16, BF16 a INT8. FP znamená Floating Point, BF pre Brain Floating Point a INT pre Integer. Čím vyššie číslo zodpovedá formátu, tým presnejší je výpočet. Prevádzka pri 64-bitovej verzii je známa ako dvojitá presnosť. Pri 32-bitovej verzii je to jednoduchá presnosť, 16-bitovej je to polovičná presnosť atď.
Keďže veľký kus tréningových modelov hlbokého učenia nevyžaduje veľkú presnosť, schopnosť vypočítať maticu operácie s polovičnou presnosťou alebo dokonca štvrtinovou presnosťou pre odvodenie výrazne znižujú pracovné zaťaženie, čím sa zrýchľuje AI učenie.
2. Pamäť s vysokou šírkou pásma (HBM)
Každý akcelerátor AMD Instinct AI sa dodáva s až 880 maticovými jadrami. S procesormi AMD Matrix Core, ktoré dokážu vykonať 383 TFLOP výpočtov s polovičnou presnosťou, je potrebná ultra rýchla pamäť. Najnovšie ponuky Instinct od AMD sú vybavené pamäťou High Bandwidth Memory (HBM) namiesto bežnej DDR4 alebo DDR5 RAM.
Na rozdiel od konvenčnej pamäte používa HBM to, čo je známe ako 3D skladaná architektúra. Tento typ architektúry sa vzťahuje na dizajnový prístup, kde sú matrice DRAM vertikálne naskladané na seba. To umožňuje stohovanie matríc na zvislej aj vodorovnej osi, preto sa používa termín 3D stohovanie.
Vďaka tejto technológii 3D stohovania môžu mať HBM kapacitu fyzickej pamäte až niekoľko stoviek gigabajtov na modul, zatiaľ čo DRR5 dokáže len desiatky gigabajtov na modul. Okrem kapacity je známe, že HBM majú vyšší výkon, pokiaľ ide o prenosovú rýchlosť a lepšiu energetickú účinnosť ako bežné pamäte DDR.
3. Tkanina Infinity
Ďalšou inováciou zahrnutou v GPU Instinct je technológia Infinity Fabric od AMD. Infinity Fabric je typ prepojovacieho systému, ktorý inteligentným dynamickým spôsobom spája CPU a GPU. To umožňuje komponentom navzájom efektívne komunikovať.
S Infinity Fabric, namiesto spájania komponentov s bežnou zbernicou, sú teraz komponenty prepojené v sieti podobnej mesh, kde môže byť šírka pásma až niekoľko stoviek gigabajtov za sekundu.
Okrem sieťového prepojenia využíva Infinity Fabric aj senzory zabudované v každej matrici na dynamické kontrolovať frekvenciu, rýchlosti prenosu údajov a iné adaptívne správanie, optimalizovať výkon a minimalizovať latencia.
4. Vývojová platforma ROCm
CUDA (compute unified device architecture) od NVIDIA je najpoužívanejšou vývojovou platformou na trénovanie modelov AI. Problém s CUDA je, že funguje iba s GPU NVIDIA. To je jeden z hlavných dôvodov, prečo má NVIDIA drvivú väčšinu podielov na trhu s akcelerátormi HPC a AI GPU.
Keďže AMD chcelo získať väčší kus trhu HPC a AI, muselo vyvinúť vlastnú platformu ROCm (Radeon Open Compute). ROCm je softvérová platforma s otvoreným zdrojovým kódom, ktorá umožňuje používať GPU Instinct ako akcelerátory AI.
Hoci nie je nevyhnutne súčasťou hardvéru Instinct, ROCm je základom, pokiaľ ide o prežitie radu GPU Instinct. S ROCm, vývojármi a výskumníci získajú nástroje ROCm, kompilátor, ovládače jadra, celý rad knižníc a prístup k rámcom ako TensorFlow a PyTorch na vývoj pomocou preferovaný programovací jazyk AI.
Ako sa porovnávajú akcelerátory Instinct AI s akcelerátormi AI Radeon GPU?
AMD ponúka svoj rad GPU Instinct pre podniky a GPU Radeon pre bežných spotrebiteľov. Ako už bolo uvedené, Instinct GPU využíva architektúru CDNA od AMD, HBM a prepojenie Infinity Fabric. Naopak Radeon využíva architektúru RDNA od AMD, pamäte DDR6 a Infinity Cache.
Radeon séria akcelerátorov AI, aj keď je menej schopná, stále obsahuje jedno alebo dve jadrá akcelerátora AI na výpočtovú jednotku. Posledný Grafický čip Radeon RX7900 XT má dve akceleračné jadrá AI na výpočtovú jednotku, čo umožňuje 103 TFLOP špičkových výpočtov s polovičnou presnosťou a 52 TFLOP špičkových výpočtov s jednoduchou presnosťou.
Zatiaľ čo séria GPU Instinct je vhodnejšia pre LLM a HPC, akcelerátory Radeon AI sa dajú použiť na jemné ladenie predtrénovaných modelov, odvodenie a graficky náročné úlohy.
AMD Instinct vs. NVIDIA Tensor
Podľa a Prieskum TrendForceNVIDA má 80% podiel na trhu serverových GPU, zatiaľ čo AMD má len 20%. Tento ohromujúci úspech spoločnosti NVIDIA je spôsobený tým, že ide o spoločnosť, ktorá sa špecializuje na dizajn a montáž GPU. To im umožňuje navrhovať výrazne výkonnejšie GPU, ktoré nemajú obdobu v iných ponukách.
Porovnajme Instinct MI205X od AMD a H100SXM5 od NVIDIA pomocou špecifikácií z Oficiálna stránka AMD a Vlastný datasheet NVIDIA:
Model GPU |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Ako môžete vidieť v tabuľke, AMD MI250X funguje lepšie z hľadiska dvojnásobnej presnosti a polovičnej presnosti. výpočty, zatiaľ čo NVIDIA H100SXMS je oveľa lepšia z hľadiska matice s polovičnou presnosťou a štvrtinou presnosti výpočty. Vďaka tomu je MI250X od AMD vhodnejší pre HPC, zatiaľ čo NVIDIA H100SXMS s učením a odvodením AI.
Budúcnosť procesorov AMD Instinct
Hoci najnovšia ponuka AMD, MI250X, je navrhnutá pre HPC, ich nadchádzajúci MI300 je viac orientovaný na tréning AI. Tento AI akcelerátor je ohlásený ako APU, ktorý kombinuje GPU a CPU v jednom balíku. To umožňuje MI300 využívať ich architektúru CNDA3 Unified Memory APU, kde GPU a CPU budú využívať iba jednu pamäť, čím sa zvyšuje efektivita a znižuje cena.
Hoci AMD nebude dnes súťažiť s NVIDIA na trhu s akcelerátormi AI, po vydaní MI300 a ROCm sa stane vyleštená séria Instinct od AMD môže byť dosť dobrá na to, aby uchmatla významnú časť trhu s akcelerátormi AI. NVIDIA.