Kicsi és nagy mag
Az általános működés mellett természetesen nem mindegy, hogy milyen magok vannak a lapkában, így ideje megismerkedni ezek képességeivel. Az E-mag tehát egy Gracemont kódnevű dizájn, amely érdekesnek mondható szimmetrikus dekódolóklasztert tartalmazó front-enddel rendelkezik. Ezek 256 bejegyzéses OOO logikát használnak, amivel a beérkező feladatok sorrendtől függetlenül is végrehajthatók, illetve a klaszterek egyenként három utasítás széles dekódolót alkalmaznak. Emellett az előbetöltés, illetve az elágazásbecslés hatékonysága is a nagyobb kiterjedésű magokhoz mérhető.
A back-end tekintetében 256 bejegyzéses re-order bufferre (ROB), az integer feldolgozók esetében pedig négy ALU, négy AGU, és két jump egységre lehet számítani, amit kiegészítenek a lebegőpontos rész 128 bites FADD és FMUL vektormotorjai. Az egyik porton keresztül az AES titkosítás gyorsítása is támogatott, illetve két-két integer és lebegőpontos store data port van.
Cache tekintetében a Gracemont 64, illetve 32 kB-os L1 utasítás és adat gyorsítótárat kínál, míg a maximum négy mag között megosztott L2 gyorsítótár kapacitása legfeljebb 2 MB lehet. Utóbbit azért érdemes így írni, mert a konfigurációtól függ a végső paraméter, de magába a négy magot tartalmazó processzormodulba ennyit építenek be fizikailag.
Az utasításkészlet szempontjából kiemelendő, hogy bár kis magról beszélünk, de ennek ellenére is támogatja az AVX-et, AVX2-t, FMA3-at és AVX-VNNI-t. Emiatt klasszikus értelemen nem tekinthető a Gracemont egy igazán ultramobil dizájnnak, ami persze a fogyasztásán is meglátszik.
Valószínűleg a Golden Cove-os P-magra már többek kíváncsiak. Az Intel utoljára az Ice Lake-hez használt Sunny Cove magon belül hajtott végre komolyabb fejlesztést, a Willow Cove és a Cypress Cove inkább a memória-alrendszer tekintetében fejlődött. Az új, Golden Cove mag ismét az alapvető működésre fókuszál, amelyen belül nagy hangsúlyt kap a továbbfejlesztett front-end rész. Többek között javult az elágazásbecslés, a µop cache pedig 2250 helyett nagyjából 4000 bejegyzést képes tárolni.
Az utasításbetöltéshez és dekódoláshoz a Golden Cove továbbra is 32 kB-os utasítás gyorsítótárat használ, viszont az iTLB (Instruction Translation Lookaside Buffer) mérete megduplázódott. Ennél is lényegesebb változás a hat szimpla dekódoló bevezetése az egy komplex mellé, ami az x86/AMD64-es utasításarchitektúra variálható utasításhossza miatt nem egyszerű lépés, leginkább a tranzisztorköltség és energiaigény tekintetében jelentős az ára. Utóbbit az Intel úgy próbálja kezelni, hogy a nagy µop cache-re alapozza a rendszer működését, így a feldolgozás 80%-ában megszüntethetik a dekódolók órajelellátását. Utóbbiak egyébként a mikrokódból származók mellé még nyolc mikrooperációt töltenek be a µop parancslistába.
A Golden Cove mag a tényleges végrehajtás tekintetében erőteljesen javította a sorrendtől függelten végrehajtást biztosító OOO logikát, amely immáron 512 bejegyzéses, viszont maradt a szokásos egységes ütemező, ami ugyanakkor már hat allokációs portra van osztva A különböző operációk a számukra megfelelő allokációra kerülnek, és onnan jutnak tovább a valós feldolgozókra. Ezek felé összesen tizenkét portot használ az Intel.
Mindegyik port kínál egy-egy darab integer ALU-t (aritmetikai-logikai egység), továbbá három porton keresztül érhető el egy-egy, FMA-t támogató vektormotor. Ezek közül az egyik fizikailag 512 bites, de ez az Alder Lake-S esetében nem számít, mert le van tiltva az AVX-512, a VNNI támogatás viszont megmaradt.
A további allokációkon keresztül érhető el a store data egység, valamint összesen öt AGU (címgeneráló egység), illetve három load és két store egység, utóbbinak megfelelően három loadot, illetve két store-t képes elvégezni a dizájn ciklusonként. Bár a back-end így némileg komplexebb lett, maradt a 48 kB-os L1 adat gyorsítótár, viszont 1,25 MB-ra nőtt az L2 adat gyorsítótár.
A processzormagok összekapcsolása szempontjából az összes P-Core és E-Core egy 1 TB/s-os adatátviteli teljesítményű compute fabricon van rajta, amely közvetlenül a magok és magcsoportok L3 gyorsítótárait köti össze. Ezek kapacitása a teljes kiépítés esetén maximum 30 MB, és mindegyik P-magnak saját L3 szelete van, míg az E-magok négyes magcsoportban osztoznak egy L3 szeleten. Fontos ugyanakkor, hogy ezek a szeletek nem ugyanakkora kapacitásúak, mivel a P-magokhoz 2,5 MB tartozik, míg az E-magok négyes magcsoportjaihoz 5 MB.
A nagymértékű dizájnbeli változások miatt az Intel kénytelen volt egy lényeges tényezőhöz is hozzányúlni, így az Alder Lake-S esetében az L3 gyorsítótár nem inkluzív, vagyis nem tartalmazza az L2 gyorsítótárakban megtalálható információkat. Ez jelentős különbség a Rocket Lake-hez viszonyítva, amely inkluzív L3 gyorsítótárat alkalmazott. Az Intel évekig kardoskodott amellett, hogy az inkluzív megoldás a jobb, de a helyzet az, hogy ez extrém nehezen működtethető úgy, hogy a magok képességei ennyire eltérőek, vagyis kényszerűen váltottak a nem inkluzív megoldásra, ami megnövelheti a magok közötti kommunikációs késleltetést.
A cikk még nem ért véget, kérlek, lapozz!