GPU Nvidia prešli dlhú cestu nielen z hľadiska herného výkonu, ale aj v iných aplikáciách, najmä v oblasti umelej inteligencie a strojového učenia. Dva hlavné faktory zodpovedné za výkon GPU Nvidia sú jadrá CUDA a Tensor prítomné na takmer každom modernom GPU Nvidia, ktorý si môžete kúpiť.
Ale čo presne tieto jadrá robia, a ak sa obe používajú v aplikáciách umelej inteligencie a strojového učenia, ako sa líšia?
Čo sú jadrá CUDA a na čo sa používajú?
CUDA je skratka pre Compute Unified Device Architecture, ktorá nevysvetľuje ich prítomnosť v GPU. Tieto jadrá boli zavedené do zostavy GPU Nvidia v architektúre Maxwell 2014 a špecializujú sa na paralelné spracovanie.
Sú dosť podobné jadrám CPU, pokiaľ ide o ich fungovanie, ale lepšie sa s nimi manipuluje úlohy vrátane kryptografických hashov, fyzikálnych nástrojov, projektov súvisiacich s dátovou vedou a dokonca aj hry rozvoj.
Keď už sme to prebrali ako jadrá CUDA ovplyvňujú herný výkon vášho PC, sú rovnako nápomocné pri lámaní čísel. Aj keď aj tie najvýkonnejšie procesory majú jadrá v dvojciferných číslach, GPU Nvidia sa dodávajú s niekoľkými tisíckami jadier CUDA, vďaka čomu sú oveľa rýchlejšie pri numerickej záťaži. Navyše, keďže tieto výpočty vykonávajú paralelne, získate oveľa rýchlejšie rýchlosti s jadrami CUDA.
CUDA jadrá sú rýchlejšie ako bežné procesorové jadrá, pokiaľ ide o lámavé čísla, ale stále nie sú ideálnym riešením. Je to preto, že nikdy neboli určené na použitie týmto spôsobom. Jadrá CUDA boli účelovo skonštruované na grafické spracovanie a na zvýšenie herného výkonu GPU Nvidia.
Čo sú to tenzorové jadrá a na čo sa používajú?
Keď sa GPU začali používať na pracovné zaťaženie umelej inteligencie a strojového učenia, Nvidia zaviedla v roku 2017 jadrá Tensor v architektúre Volta pre GPU svojich dátových centier.
Trvalo však až do architektúry Nvidia Turing (GPU RTX 20-Series), kým sa tieto jadrá dostali do spotrebiteľských GPU. Pamätajte že zatiaľ čo karty GTX 16-Series sú tiež založené na architektúre Turing, neobsahujú žiadne sledovanie lúčov ani Tensor jadrá.
Zatiaľ čo jadrá CUDA boli adekvátne prinajlepšom pre výpočtovú záťaž, jadrá Tensor zvýšili náskok tým, že boli výrazne rýchlejšie. Zatiaľ čo jadrá CUDA môžu vykonávať iba jednu operáciu za cyklus hodín, jadrá Tensor zvládnu viacero operácií, čo im dáva neuveriteľné zvýšenie výkonu. V zásade všetky jadrá Tensor zvyšujú rýchlosť násobenia matice.
Toto zvýšenie výpočtovej rýchlosti prichádza na úkor presnosti, pričom jadrá CUDA sú výrazne presnejšie. To znamená, že pokiaľ ide o tréningové modely strojového učenia, jadrá Tensor sú oveľa efektívnejšie z hľadiska výpočtovej rýchlosti a celkových nákladov; preto sa strata presnosti často zanedbáva.
Ako jadrá Tensor a CUDA ovplyvňujú výkon GPU?
Ako už pravdepodobne tušíte, zatiaľ čo jadrá CUDA a Tensor dokážu zvládnuť rovnaké pracovné zaťaženie, obe sú to špecializované jadrá na vykresľovanie grafiky a numerické pracovné zaťaženie.
To znamená, že v závislosti od používateľa, na ktorého je konkrétny GPU zameraný, bude mať rôzny počet jadier. Napríklad, ak vezmeme do úvahy RTX 4090, najnovšiu a najlepšiu hernú grafickú kartu Nvidia pre spotrebiteľov, získate oveľa viac jadier CUDA ako jadier Tensor. 16 384 jadier CUDA až 512 jadier Tensor, aby som bol konkrétny.
Na porovnanie, GPU Nvidia L40 pre dátové centrá, založené na rovnakej architektúre Ada Lovelace ako RTX 4090, má 18 176 jadier CUDA a 568 jadier Tensor. To sa nemusí zdať až taký veľký rozdiel, ale môže to výrazne ovplyvniť výkon týchto GPU.
Pokiaľ ide o teoretický výkon, L40 má 90,52 TFlops výkonu FP16 a FP32, ako aj 1 414 GFlops výkonu FP64. Toto je masívne zvýšenie výkonu v porovnaní s RTX 4090 s 82,58 TFlops výkonu FP16 a FP32 a 1 290 GFlops výkonu FP64.
Pokiaľ nie ste dobre oboznámení s numerickými číslami výkonu GPU, vyššie uvedené údaje o výkone GPU Nvidia s pohyblivou rádovou čiarkou pre vás nemusia veľa znamenať. Stručne však ukazujú, že L40 je oveľa rýchlejší ako RTX 4090, pokiaľ ide o numerické výpočty – tie, ktoré sú potrebné pre umelú inteligenciu a pracovné zaťaženie založené na strojovom učení.
Zlepšenie výkonu je ešte pôsobivejšie, keď vezmete do úvahy spotrebu energie dvoch GPU. RTX 4090 má hodnotenie TGP (nezamieňať s TDP, je tu malý rozdiel) 450 W, zatiaľ čo L40 je dimenzovaný len na 300 W.
Obe tieto GPU budú spúšťať hry a dobre trénovať váš model strojového učenia. RTX 4090 však bude lepšia v spúšťaní hier a L40 bude lepšia v trénovaní modelov strojového učenia.
CUDA jadrá vs. Tenzorové jadrá: Čo je dôležitejšie?
Obe jadrá sú rovnako dôležité, bez ohľadu na to, či si GPU kupujete na hranie alebo ho dávate do stojana dátového centra. Herné GPU pre spotrebiteľov Nvidia využívajú množstvo funkcií AI (najmä DLSS) a mať na palube jadrá Tensor sa môže hodiť.
Pokiaľ ide o GPU dátového centra, jadrá CUDA a Tensor pracujú väčšinu času v tandeme, takže získate oboje bez ohľadu na GPU, ktorý si vyberiete. Namiesto toho, aby ste sa zamerali na konkrétny typ jadra vo vašom GPU, mali by ste sa viac zamerať na to, čo robí grafická karta ako celok a na typ používateľa, pre ktorý je určená.
Jadrá CUDA sa špecializujú na spracovanie grafických úloh, zatiaľ čo jadrá Tensor sú lepšie na numerické. Pracujú spolu a sú do určitej miery zameniteľní, ale riadia sa svojimi vlastnými špecializáciami, a preto v prvom rade existujú.
Rôzne GPU sa špecializujú na rôzne aspekty. RTX 4090 ľahko rozdrví akúkoľvek hru, ktorú na ňu hodíte, zatiaľ čo RTX 4060 zvládne iba hranie v rozlíšení 1080p. Ak nehráte pomocou svojho GPU a potrebujete ho iba na lámanie čísel alebo trénovanie neurónových sietí, GPU dátového centra série A, ako je A100 alebo dokonca L40, je tou najlepšou voľbou.
Na vašich jadrách GPU záleží
Viac jadier GPU vám poskytne lepší celkový výkon, pretože váš GPU bude všestrannejší a bude mať vyhradené zdroje na zvládanie rôznych úloh. Získať naslepo GPU s najvyšším počtom jadier však nie je najlepšie rozhodnutie. Venujte chvíľu starostlivému zváženiu vášho prípadu použitia, pozrite sa na možnosti GPU ako celku a potom sa rozhodnite.