Többlapkás kísérleti dizájnt tervezett az NVIDIA a gépi tanulás skálázására

Az RC18 nevű prototípus 36 darab, 16 nm-es node-on készülő RISC-V chipletet köt össze. – írta: Abu85, 4 hónapja

Az IT iparág egy ideje már küzd a Moore-törvény lassulásával. Bár maga az állítás még ma is lehetne igaz, az újabb gyártástechnológiák költsége igen magasra rúg, és számos fizika törvényeiből eredő probléma miatt az előnyök is egyre kisebbek, vagyis gazdasági szempontból már nem előnyös a Moore-törvény életben tartása. Legalábbis a hagyományos módon semmiképpen, de a cégek jellemzően találékonyak, így ha egy problémát nem lehet megoldani, akkor megpróbálják megkerülni.

A dráguló chipgyártás egyik ellenszere lehet a chipletes dizájn felé való menekülés, vagyis egy nagyobb lapka helyett, több kisebb kerülne egy tokozásra, és így gyakorlatilag a nem skálázódó áramkörök tekintetében alkalmazható maradhat egy olcsóbb node, míg a csúcskategóriás gyártástechnológiát ott vetnék be, ahol ennek tényleges előnye van. Ráadásul az így készülő chiplet arányaiban jóval kisebb, mint egy teljes lapka, tehát a fejlesztése és a gyártása is egyszerűbb. A processzorok piacán már javában zajlik az átállás, az AMD Rome platformjának CPU-ja ezt a megoldást alkalmazza, de maga az elgondolás független a célzott piactól, gyakorlatilag bárhol bevethető.

Az NVIDIA az idei GTC-n be is mutatott egy kísérleti többlapkás dizájnt, ami tulajdonképpen egy chipletes elgondolásnak mondható. Az RC18 nevű prototípus ugyan eléggé egyszerű, hiszen 16 nm-es node-on készülő RISC-V modulokat tartalmaz, konkrétan 36 darabot, de a lényeg itt nem feltétlenül a konkrét chipletek tesztelése, hanem sokkal inkább az összeköttetést ellenőrzik.



(forrás: PC Watch) [+]

Az RC18 egyébként egy gépi tanulás dedukció szakaszához kigyúrt megoldás, amelynél egy chiplet 87 millió tranzisztort tartalmaz, a lapkán belül pedig egy RISC-V architektúrájú Rocket kódnevű mag, 16 darab feldolgozóelem, egy működéshez szükséges belső memóriapuffer, illetve nyolc GRS (Ground-Referenced Signaling) link található. Utóbbi szolgál az egyes chipletek egymáshoz kapcsolódásáért. Összesítésben 100 GB/s-os adatátviteli tempó áll rendelkezésre, vagyis egy, csak egyirányú kommunikációt megvalósító GRS 12,5 GB/s-os teljesítményt kínál. A hálós topológia miatt egy chiplet maximum két GRS-sel kapcsolódhat a másikhoz.

Az RC18-ból nem lesz kereskedelmi termék, ilyen formában a teljesítménye sem különösebben fontos, az NVIDIA csak a chipletes dizájn skálázhatóságának felmérése miatt tervezte meg, illetve így tesztelni lehet az efféle koncepció mögötti technológiai hátteret.

Azt nehéz megjósolni, hogy egy GPU-nál hogyan fog kinézni a chipletes megvalósítás. Az RC18 ezt nem is vizsgálja, szimplán AI-hoz készült, a gépi tanulás dedukció szakasza pedig igen egyszerűen skálázható homogén (a tokozáson lévő minden chiplet ugyanolyan) kialakítás mellett. A grafika számítása már sokkal körülményesebb, hiszen számos fixfukciós blokk van a rendszeren belül, így a többlapkás kiépítés tekintetében is a heterogén (a tokozáson lévő chipletek nem ugyanolyanok) kialakítás lehet a kedvezőbb. Persze eleinte talán megéri kevés lapkára építő homogén verzió, elvégre ennek a megtervezése nagyságrendekkel könnyebb, a túlzott kockázatot pedig amúgy sem szeretik felvállalni a cégek.