Radeon RX 6800: másodjára fényesebb a Navi

Sokadjára fut neki az AMD a GPU-piac visszahódításának, vajon a „Big Navi” lesz az, amivel ez tényleg sikerül?

RDNA a felsőházban

Az AMD hosszú idő óta játssza a látszólag örök második szerepet: a CPU-piacon az Intel, a GPU-piacon pedig az NVIDIA mögött volt a másik fontos szereplő, de már évek óta nem sikerült egyik területen sem magára találnia. Aztán jött a Ryzen sikere és az Intel szerencsétlenkedése, ezek kombinációja pedig legalább az egyik területen elhozta a várva várt sikert, amely ugyan piacvezető szerepet még nem jelent, de technológiai elsőséget igen.

Ehhez képest a GPU-k területén valahogy nem sikerült ezt megismételni: itt az AMD volt az, aki sokáig inkább az egyre elavultabb architektúráról lehúzott újabb és újabb bőrökkel próbált meg tényező maradni, miközben az NVIDIA menetrendszerűen dobta piacra az egyre frissebb alapokra építkező grafikus processzorokat. Ráadásul ezekben még arra is volt tartalék, hogy amikor az AMD végül tényleg architektúrát váltott, egy gyors tuninggal kihúzza ennek méregfogát. Így történt, hogy hiába lett végül ígéretes az RDNA, a GeForce GTX 16/RTX 20 sorozat Super változatai továbbra is a tarolhattak a piacon.

Most viszont elérkezett az idő a visszavágásra: az AMD utoljára a Radeon VII-tel támadta a VGA-piac felsőházát, de ennek már bő két és fél éve. Az új RDNA architektúrára nem terveztek csúcslapkát, méghozzá azért, hogy több erőforrást tudjanak csoportosítani a második generációs dizájnra. Ez az október végi bemutató alapján jó döntésnek bizonyult, ugyanis az RDNA 2 generáció kifejezetten ütőképesnek lett lefestve.

AMD Navi 21
AMD Navi 21 [+]

Az alapokat tekintve az AMD nem módosított jelentősen az RDNA architektúrán, ha csak a multiprocesszorokat nézzük, de ezek körítése azért jelentősen megváltozott. Az RDNA 2 architektúra kezdésnek három VGA-n fog debütálni, és ezeken minden esetben a Navi 21 kódnevet viselő lapka dolgozik. A fejlesztés a TSMC 7 nm-es node-ján készül, és 26,8 milliárd tranzisztorból épül fel, miközben a kiterjedése 519,8 mm².

Mivel a multiprocesszorok alapvető kialakítása nem változott, így mindenképpen érdemes elolvasni az első generációs RDNA-ról írt beszámolónkat, amelynek második, harmadik, negyedik és ötödik oldalán részletesen kifejtettük, hogy az AMD miért váltotta le a több évig alkalmazott GCN-t. A korábban közölt adatok döntő része igaz az RDNA 2 architektúrára is, az egyetlen különbség, hogy a maximálisan futtatható konkurens wave-ek száma 20-ról 16-ra csökken. Utóbbi nem jelentős változás, mivel már az eredeti RDNA is ritkán tudott maximális, azaz 20 wave-vel dolgozni a mai tipikus shaderek mellett, miközben 12-14 konkurens wave esetén is nagyon jól át tudta lapolni a memóriaelérésből eredő késleltetést. Itt tehát egy picit egyszerűsödött a dizájn, hogy egy kevés tranzisztort meg lehessen spórolni az ütemező szintjén, miközben ennek nincs semmilyen negatív hatása a teljesítményre.

A multiprocesszorra levetített részletek tekintetében Navi 21-es grafikus vezérlőben 40 darab úgynevezett WGP (Workgroup Processor) található, amelyek két darab CU-t, azaz Compute Unitot tartalmaznak, és ezekben belül van két darab, egymástól teljesen független, saját skalár egységekkel dolgozó, 32 utas, azaz 1024 bites, multiprecíziós SIMD motor. Egy WGP-ben 128 kB-os Local Data Share (LDS) található, amelyen a négy darab, egyenként 128 kB-os regiszterterülettel rendelkező SIMD motor osztozik. A helyi adatmegosztás mellett CU-nként egy darab 16 kB-os L0 adat gyorsítótár is fellelhető.

Az RDNA 2 multiprocesszora
Az RDNA 2 multiprocesszora [+]

A WGP-n belül a saját regiszterterülettel és wave pufferrel rendelkező skalár egységekhez tartozik egy közös 16 kB-os skalár és egy 32 kB-os utasítás gyorsítótár. Előbbit csak a skalár feldolgozó éri el, míg utóbbit az összes feldolgozó hasznosíthatja, és természetesen mindkét gyorsítótár írható és olvasható is. Ezek mellett a textúrázást CU-nként egy blokk oldja meg, amely négy darab, csak szűrt mintákkal visszatérő, Gather4-kompatibilis textúrázó csatornát rejt. Az SFU-k, vagyis a speciális funkciókért felelős egységek összesített száma sem változott, azaz SIMD-enként nyolc feldolgozóról beszélünk.

A multiprocesszorok többféle kevert, natív vagy csomagolt adatokkal dolgozó módot támogatnak. Ezekről az alábbi kép ad bővebb felvilágosítást.


[+]

A gyorsítótárak szervezése az új Infinity Cache miatt megváltozott az előző generációhoz képest. A memóriavezérlőhöz mostantól ez a 128 MB kapacitású írható és olvasható gyorsítótár kapcsolódik, és a 4 MB-os, szintén írható és olvasható másodlagos gyorsítótár ehhez van hozzákötve a ROP blokkal egyetemben. Ezek a részegységek továbbra is a másodlagos gyorsítótár kliensei, vagyis a pixel- és textúraadatokra vonatkozó memóriaelérések koherensek, továbbá minden ROP blokk saját RB gyorsítótára egy olyan 128 kB-os L1 gyorsítótárhoz kapcsolódik, amelyet még tíz darab WGP is elér, és ezek az egységek a raszterizálóval együtt ezen osztoznak. Mindemellett az L1 gyorsítótárhoz kapcsolódik a CU-khoz tartozó L0 is.


[+]

A ROP blokkok igencsak átalakultak a korábbi generációhoz viszonyítva. A részegységek továbbra is úgynevezett pixelmotorokat tartalmaznak, egészen pontosan 2-t, és egy pixelmotor 4 blending, illetve 8 Z mintavételező egységből áll, ami összesen 128 blending és 256 Z mintavételezőt jelent. A friss rendszer viszont sokkal többre képes, mint az előző generáció, nem véletlen az RB+ megnevezés, mivel támogatják a VRS-t (variable rate shading), ami lehetővé teszi, hogy az árnyalás bizonyos feltételek teljesülése esetén ne a teljes felbontáson történjen meg, így pedig sebességet lehet vele nyerni. Az AMD rendszere kezeli az 1x1, 1x2, 2x1 és 2x2 módokat, és 8x8 pixeles blokkokban képes dolgozni, így nagy hatékonysággal kiválasztható az adott területre vonatkozó optimális feldolgozási szint.


[+]

Természetesen megmaradt a Delta Color Compression technika, amely továbbra is teljes mértékben támogatja a 2:1, a 4:1 és a 8:1 arányú, veszteségmentes tömörítést, így jelentősen lehet vele csökkenteni a memóriabuszra jutó terhelést. Az AMD most is mindenhol használ DCC-t, ahol van értelme, így az egyes részegységek és a gyorsítótárak között is. Végül érdemes szót ejteni a memóriavezérlőről, amely 256 bites, így nyolc darab 32 bites buszon köthető rá egy-egy darab GDDR6 szabványú memórialapka.

A cikk még nem ért véget, kérlek, lapozz!

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés