A tapasztalat létfontosságú a mély tanulás új kérdésekben való alkalmazásához szükséges készségek fejlesztése szempontjából. A gyors GPU azonnali visszajelzés révén gyors gyakorlati tapasztalatszerzést jelent. A GPU-k több magot tartalmaznak a párhuzamos számítások kezeléséhez. Nagy memóriasávszélességet is tartalmaznak, hogy ezeket az információkat könnyedén kezeljék.
Ezt szem előtt tartva arra a kérdésre keressük a választ, hogy „Mi a legjobb grafikus kártya az AI, a gépi tanulás és a mély tanulás számára?”Több, jelenleg 2021-ben elérhető grafikus kártya áttekintésével. Ellenőrzött kártyák:
- AMD RX Vega 64
- NVIDIA Tesla V100
- Nvidia Quadro RTX 8000
- GeForce RTX 2080 Ti
- NVIDIA Titan RTX
Az alábbiakban bemutatjuk az eredményeket:
AMD RX Vega 64
Radeon RX Vega 64
Jellemzők
- Megjelenés dátuma: 2017. augusztus 14
- Vega építészet
- PCI Express interfész
- Óra sebessége: 1247 MHz
- Stream processzorok: 4096
- VRAM: 8 GB
- Memória sávszélesség: 484 GB / s
Felülvizsgálat
Ha nem tetszik az NVIDIA GPU-k, vagy a költségvetése nem teszi lehetővé, hogy 500 USD feletti összeget költsön grafikus kártyára, akkor az AMD intelligens alternatívát kínál. Megfelelő mennyiségű RAM-mal, gyors memória-sávszélességgel és több mint elegendő adatfolyam-processzorral az AMD RS Vega 64-et nagyon nehéz figyelmen kívül hagyni.
A Vega architektúra frissítés a korábbi RX kártyákhoz képest. Teljesítményét tekintve ez a modell közel áll a GeForce RTX 1080 Ti-hez, mivel mindkét modell hasonló VRAM-mal rendelkezik. Sőt, a Vega támogatja a natív félpontosságot (FP16). A ROCm és a TensorFlow működik, de a szoftver nem annyira kiforrott, mint az NVIDIA grafikus kártyáknál.
Összességében a Vega 64 egy tisztességes GPU a mély tanuláshoz és az AI-hez. Ez a modell jóval kevesebb, mint $ 500 USD, és elvégzi a munkát a kezdők számára. Szakmai alkalmazásokhoz azonban javasoljuk az NVIDIA kártya választását.
AMD RX Vega 64 Részletek: Amazon
NVIDIA Tesla V100
Tesla V100
Jellemzők:
- Megjelenés dátuma: 2017. december 7
- NVIDIA Volta architektúra
- PCI-E interfész
- 112 TFLOPS tenzor teljesítmény
- 640 Tenzormag
- 5120 NVIDIA CUDA® mag
- VRAM: 16 GB
- Memória sávszélesség: 900 GB / s
- Számítási API-k: CUDA, DirectCompute, OpenCL ™, OpenACC®
Felülvizsgálat:
Az NVIDIA Tesla V100 egy behemót és az egyik legjobb grafikus kártya az AI, a gépi és a mély tanuláshoz. Ez a kártya teljesen optimalizált, és tele van minden olyan finomsággal, amelyre e célra szükség lehet.
A Tesla V100 16 és 32 GB-os memóriakonfigurációban érkezik. Rengeteg VRAM-mal, AI-gyorsítással, nagy memória sávszélességgel és speciális, a mély tanuláshoz szükséges tenzor magokkal biztos lehet benne, hogy minden edzésmodellje zökkenőmentesen fog működni - és kevesebb idő alatt. Pontosabban, a Tesla V100 képes 125TFLOPS mély tanulási teljesítményt nyújtani mind a képzéshez, mind a következtetéshez [3], amelyet az NVIDIA Volta architektúrája tett lehetővé.
NVIDIA Tesla V100 Részletek: Amazon, (1)
Nvidia Quadro RTX 8000
Nvidia Quadro Rtx 8000
Jellemzők:
- Megjelenés dátuma: 2018. augusztus
- Turing építészet
- 576 Tenzormagok
- CUDA magok: 4 608
- VRAM: 48 GB
- Memória sávszélesség: 672 GB / s
- 16.3 TFLOPS
- Rendszer interfész: PCI-Express
Felülvizsgálat:
A Quadro RTX 8000 kifejezetten a mélytanulási mátrixszámoláshoz és számításokhoz készült csúcskategóriás grafikus kártya. Mivel ez a kártya nagy VRAM kapacitással rendelkezik (48 GB), ez a modell ajánlott az extra nagy számítási modellek kutatásához. NVLink-rel párosítva a kapacitás akár 96 GB VRAM-ra is növelhető. Ami sok!
72 RT és 576 Tensor mag kombinációja a továbbfejlesztett munkafolyamatokhoz több mint 130 TFLOPS teljesítményt eredményez. A listánk legdrágább grafikus kártyájához - a Tesla V100-hoz - képest ez a modell potenciálisan 50 százalékkal több memóriát kínál, és még mindig kevesebbet tud fizetni. Még a telepített memórián is ez a modell kivételes teljesítményt nyújt, miközben nagyobb tételméretekkel dolgozik egyetlen GPU-n.
Ismét, a Tesla V100-hoz hasonlóan, ezt a modellt is csak az Ön ártetője korlátozza. Ennek ellenére, ha befektetni akar a jövőbe és a kiváló minőségű számítástechnikába, szerezzen be egy RTX 8000-et. Ki tudja, vezetheti az AI kutatását. A Tesla V100 a turingi architektúrára épül, ahol a V100 a Volta architektúrára épül, így az Nvidia Quadro RTX 8000 valamivel modernebbnek és kissé erősebbnek tekinthető, mint a V100.
Nvidia Quadro RTX 8000 Részletek: Amazon
GeForce RTX 2080 Ti
Geforce RTX 2080 Founders Edition
Jellemzők:
- Megjelenés dátuma: 2018. szeptember 20
- Turing GPU architektúra és az RTX platform
- Óra sebessége: 1350 MHz
- CUDA magok: 4352
- 11 GB újgenerációs, rendkívül gyors GDDR6 memória
- Memória sávszélesség: 616 GB / s
- Teljesítmény: 260W
Felülvizsgálat:
A GeForce RTX 2080 Ti olyan költségvetési lehetőség, amely ideális a kis méretű munkaterhelések modellezéséhez, nem pedig a nagyszabású képzési fejlesztésekhez. Ennek oka, hogy kártyánként kisebb GPU memóriával rendelkezik (csak 11 GB). Ennek a modellnek a korlátai nyilvánvalóbbak lesznek, ha néhány modern NLP modellt oktatnak. Ez azonban nem jelenti azt, hogy ez a kártya nem versenyezhet. Az RTX 2080 ventilátoros kialakítása sokkal sűrűbb rendszerkonfigurációkat tesz lehetővé - akár négy GPU-t egyetlen munkaállomáson belül. Ráadásul ez a modell az ideghálózatokat a Tesla V100 sebességének 80 százalékával gyakorolja. A LambdaLabs mély tanulási teljesítménye alapján a Tesla V100-hoz képest az RTX 2080 az FP2 sebességének 73% -a, az FP16 sebességének pedig 55% -a.
Eközben ez a modell közel hétszer olcsóbb, mint egy Tesla V100. Ár és teljesítmény szempontjából is a GeForce RTX 2080 Ti nagyszerű GPU a mély tanuláshoz és az AI fejlesztéséhez.
GeForce RTX 2080 Ti Részletek: Amazon
NVIDIA Titan RTX
NVIDIA Titan RTX Graphics
Jellemzők:
- Megjelenés dátuma: 2018. december 18
- Az AI-hez tervezett NVIDIA Turing ™ architektúra működteti
- 576 tenzormag az AI gyorsuláshoz
- 130 teraFLOPS (TFLOPS) a mély tanulási képzéshez
- CUDA magok: 4608
- VRAM: 24 GB
- Memória sávszélesség: 672 GB / s
- Ajánlott tápegység 650 watt
Felülvizsgálat:
Az NVIDIA Titan RTX egy másik középkategóriás GPU, amelyet komplex mély tanulási műveletekhez használnak. Ennek a modellnek a 24 GB-os VRAM-ja elegendő a legtöbb tételmérethez. Ha azonban nagyobb modelleket szeretne képezni, akkor párosítsa ezt a kártyát az NVLink híddal, hogy ténylegesen 48 GB VRAM legyen. Ez a mennyiség még a nagy transzformátorú NLP modellekhez is elegendő lenne. Ezenkívül a Titan RTX teljes sebességű vegyes precíziós képzést tesz lehetővé a modellek számára (i.e., FP 16 és FP32 felhalmozás). Ennek eredményeként ez a modell körülbelül 15-20 százalékkal gyorsabban teljesít azokban a műveletekben, ahol a Tensor magokat használják.
Az NVIDIA Titan RTX egyik korlátja a két ventilátor kialakítása. Ez akadályozza a bonyolultabb rendszerkonfigurációkat, mert nem lehet munkaállomásba csomagolni a hűtési mechanizmus lényeges módosításai nélkül, ami nem ajánlott.
Összességében a Titan kiváló, univerzális GPU bármilyen mély tanulási feladathoz. Más általános célú grafikus kártyákkal összehasonlítva minden bizonnyal drága. Ezért ez a modell nem ajánlott a játékosok számára. Mindazonáltal az extra VRAM és a teljesítménynövelést valószínűleg értékelni fogják a kutatók, amelyek összetett mély tanulási modelleket alkalmaznak. A Titan RTX ára lényegesen alacsonyabb, mint a fent bemutatott V100, és jó választás lenne, ha a költségvetése nem teszi lehetővé a V100 árképzését a mély tanuláshoz, vagy ha a munkaterhelésének nincs szüksége másra, mint a Titan RTX (lásd érdekes referenciaértékeket)
NVIDIA Titan RTX Részletek: Amazon
A legjobb grafikus kártya kiválasztása az AI, a gépi tanulás és a mély tanulás számára
Az AI, a gépi tanulás és a mély tanulási feladatok rengeteg adatot dolgoznak fel. Ezek a feladatok nagyon megterhelőek lehetnek a hardveren. Az alábbiakban bemutatjuk azokat a jellemzőket, amelyeket szem előtt kell tartani a GPU megvásárlása előtt.
Magok
Egyszerű ökölszabályként: minél nagyobb a magok száma, annál magasabb lesz a rendszer teljesítménye. Figyelembe kell venni a magok számát is, különösen, ha nagy mennyiségű adattal foglalkozik. Az NVIDIA magjait CUDA-nak nevezte el, míg az AMD magjaikat folyamprocesszoroknak hívja. Válassza a költségvetés által engedélyezett legtöbb feldolgozó magot.
Feldolgozási teljesítmény
A GPU feldolgozási teljesítménye a rendszer belsejében lévő magok számától és a magok futtatásának sebességével szorozva. Minél nagyobb a sebesség és annál nagyobb a magok száma, annál nagyobb lesz a feldolgozási teljesítmény, amellyel a GPU kiszámíthatja az adatokat. Ez meghatározza azt is, hogy a rendszere milyen gyorsan hajt végre egy feladatot.
VRAM
A Video RAM vagy VRAM a rendszer által egyszerre kezelhető adatmennyiség mérése. A magasabb VRAM létfontosságú, ha különféle Computer Vision modellekkel dolgozik, vagy bármilyen CV Kaggle versenyt végez. A VRAM nem olyan fontos az NLP számára, vagy más kategorikus adatokkal való munka szempontjából.
Memória sávszélesség
A memória sávszélessége az adatok beolvasásának vagy tárolásának sebessége. Egyszerűbben fogalmazva, ez a VRAM sebessége. GB / s-ban mérve, a nagyobb memória sávszélesség azt jelenti, hogy a kártya több adatot tud elővenni kevesebb idő alatt, ami gyorsabb működéshez vezet.
Hűtés
A GPU hőmérséklete jelentős szűk keresztmetszetet jelenthet a teljesítmény szempontjából. A modern GPU-k algoritmus futtatása közben maximálisan növelik sebességüket. De amint elér egy bizonyos hőmérsékleti küszöböt, a GPU csökkenti a feldolgozási sebességet, hogy megvédje a túlmelegedéstől.
A léghűtők ventilátoros kialakítása a levegőt a rendszeren kívülre tolja, míg a nem ventilátoros ventilátorok beszívják a levegőt. Az olyan architektúrában, ahol több GPU-t helyeznek el egymás mellett, a nem ventilátoros ventilátorok jobban felmelegszenek. Ha 3–4 GPU-val rendelkező léghűtést használ, kerülje a ventilátor nélküli ventilátorokat.
A vízhűtés egy másik lehetőség. Bár drága, ez a módszer sokkal csendesebb, és biztosítja, hogy a leghasznosabb GPU-beállítások is hűvösek maradjanak a működés során.
Következtetés
A legtöbb felhasználó számára, aki mély tanulásba kezd, az RTX 2080 Ti vagy a Titan RTX nyújtja a legnagyobb durranást. Az RTX 2080 Ti egyetlen hátránya a korlátozott 11 GB-os VRAM méret. A nagyobb tételméretekkel történő edzés lehetővé teszi a modellek gyorsabb és sokkal pontosabb edzését, ezzel jelentős időt megtakarítva a felhasználóval. Ez csak akkor lehetséges, ha Quadro GPU-k vagy TITAN RTX vannak. A félpontosság (FP16) használata lehetővé teszi, hogy a modellek illeszkedjenek az elégtelen VRAM méretű GPU-kba [2]. Haladóbb felhasználók számára azonban a Tesla V100 az, ahol befektetnie kell. Ez a legjobb választás a legjobb grafikus kártya számára az AI, a gépi tanulás és a mély tanulás számára. Ennyi ehhez a cikkhez. Reméljük, hogy tetszett. A következő alkalomig!
Hivatkozások
- A legjobb GPU-k az AI, a gépi tanulás és a mély tanulás számára 2020-ban
- A legjobb GPU a mély tanuláshoz 2020-ban
- NVIDIA AI INFERENCE PLATFORM: Óriási előrelépés az AI szolgáltatások teljesítményében és hatékonyságában, az adatközponttól a hálózat széléig
- NVIDIA V100 TENSOR CORE GPU
- Titan RTX mély tanulási referenciaértékek