Keresés

Hirdetés

Új hozzászólás Aktív témák

  • lenox

    veterán

    válasz Abu85 #43 üzenetére

    Mar a masik topikban (link) is kertem, erre mutass mar legyszi egy linket, mert szerintem ilyen, hogy a gpu es a cpu egymassal kozvetlenul adatot cserel nincs egyelore, meg nem is latom, hogy hogyan lehetne, hiszen egy 80 shaderes (2x40) tomb akkor tud jo kihasznaltsaggal dolgozni, ha pl. 1000 threadet inditasz el rajta, akkor pedig legtobb esetben 1000 pl. 32 bites eredmenyt kapunk, ezt hova rakjak a cpuban? Mert szerintem egyelore sehova, szepen ki kell menni a memoriaig. Persze esetleg kesobb lehet majd pl. kozos levelx cache, de most nem igy mukodik.
    Nem feltetlenul kapcsolodik, csak felvetnem, hogy tudtommal egy opencl kernel launchnak tobb nagysagrenddel nagyobb a kesleltetese, mint akar a pcie akar a memoriabusznak (100 vs 1 microsec).

  • lenox

    veterán

    válasz Abu85 #105 üzenetére

    Pcie x1-en nagysagrendileg 25-szor tud a 720p-s adat odamenni majd visszamenni egy masodperc alatt. De nem x1 van a normalis rendszerekben hanem pcie 2.0 x16, azon mar akar 500-szor is tudna, szoval semmi szukseg ennel gyorsabbra. Az x1 nyilvanvaloan azert volt, hogy az ion2-t szopassa az intelt. Mert annyira felt a nem integralt gpu-tol, amit nem o ad el. Ez pont az ellen erv, amit te mondasz, nevezetesen, hogy csak az integralt, egybetokozott rendszer a nyero, ha igy lenne, akkor mi szuksege lett volna erre az intelnek?

    Igen az APU heterogén programozása az lényegében CPU+GPU, de nincs közte lassú busz, vagyis az eddigiekhez képest az adatcserével sokkal bátrabban lehet bánni.

    Ezt mar sokadjara irom, hogy nem igy van. A Fusion eseteben is ki kell menni a memoriaba, ott at kell masolni a masik memoriateruletre az adatot, es utana tudja a masik egyseg hasznalni. Lehet, hogy par szazalekkal gyorsabb lesz, mint ugyanez a pcie buszon keresztul, viszont joval lassabban fog processzalni, raadasul amikor mindket oldal processzal, akkor osztoznak a savszelessegen. Ahhoz, hogy gyorsabb legyen az adatmozgatas, ahhoz is az kell, hogy 10-12 GB/sec folotti valos memoriasavszelesseget tudjon (es akkor meg a processzalasrol nem beszeltunk). Egyelore semmelyik desktop nem tud ennyit, lehet, hogy most majd fog tudni, a mobil verzio spec joval kevesebbet tud, szoval az nem lesz gyorsabb, mint diszkret vga-val.
    Nem azzal van a baj az integralasnal, hogy egyben van a cpu es gpu es esetleg ezek kozvetlenul kommunikalhatnanak, amit a Fusion eseteben meg nem tesznek meg (tehat a Fusion is oda-vissza toltoget), hanem azzal, hogy egy mai normalis gpu-t egy mai alaplap architektura csak eheztetni tud. Ha barki (akar az nv is) felpakol egy kartyara 100-200 GB/sec savszelessegu memoriarendszert, es ehhez koti oda az akar kulon, akar egyben levo cpu magjait es gpujat, akkor az egy killer rendszer. Ha ugyenezt 10-20 GB/sec-es memoriarendszerrel teszi, akkor az semmi kulonos. Persze mobil eszkoznel ar/meret/fogyasztas szempontjabol jobb, mint ugyanez diszkret gpuval. Desktopnal is jobb, de csak gazdasagilag, mert az intel vagy az amd maguk begyujtik az osszes penzt, nem kell chipsetgyartonak adni, vagy entry levelnel gpu gyartonak (bar ez mar a chipsetbe integralt vga-nal is megvolt).
    Persze, lehet abrat mutogatni, hogy ez a cpu teljesitmeny novelesenek egyetlen utja. Abban meg az a csusztatas, hogy igen, a cpu teljesitmenyet noveled ezzel, de nem a cpu/gpu paroset. Szoval azzal lehet ervelni, hogy ez gazdasagilag nyero, az viszont tevedes, hogy ez teljesitmeny szempontjabol nyero lenne. Ahhoz meg 2 dolog hianyzik, a gyors adatcsere (ami szerinted megvan, de szerintem meg nincs), es a gyors memoriarendszer. Az elsot egyebkent nem lenne lehetetlen megcsinalni, tobb lehetoseg is kinalkozna ra (pl. chipen beluli levelx cache-en keresztul (bar ez eleg sok problemat felvet), vagy pl. hogyha masolas nelkul at lehetne adni az adatot), lehet, hogy egy kovetkezo generacioban benne is lesz valamilyen megoldas, de egyelore ezek nincsenek meg.

  • lenox

    veterán

    válasz Abu85 #128 üzenetére

    Ne ferdits, te jottel elo az ion2-vel,hogy ahhoz kepest mekkora haladas. Pont azt mondom, hogy persze, ahhoz kepest haladas, csak kar, hogy a nem mestersegesen lekorlatozott es szivatott platformokon x16 van, raadasul 2.0, ahol annyival tobb a bandwidth, hogy nem korlatoz semmit.

    Mobil iranyban mar lattam benchmarkot, olyan 3-4 GB/sec-et tud memoria teren, ezt tehat jol elveri a pcie x16. Desktop benchmarkot meg nem lattam, de az vilagos ugye, hogy az elmeleti meg a valos sebesseg az nem ugyanaz, ezert is irtam, hogy valos. Eddig nagysagrendileg 50-60%-at tudtak hozni az elmeleti sebessegnek, nem latom, miert ne felteteleznem, hogy ezutan is ennyit fognak tudni, szoval a valos lesz mondjuk 13-16 GB/sec desktopon, es mivel ugyanonnan olvasod az adatot, ahova irod, ezert ez 6.5-8 GB/sec-es pcie sebessegnek felel meg. A pcie buszon valos 5-6 GB/sec adatot lehet atvinni, tehat ez mondjuk 25-30%-os novekedes a transzfer speedben (de ennel joval nagyobb hatrany processzing kozben, szoval nemigen eri meg). Persze csak akkor, ha olyan programot futtatunk, ami csak egy iranyba kommunikal, mert a pcie full duplex, tehat ott visszafele is tud menni kozben ugyanez, akkor spec 30% hatranyban van ez rendszer a pcie--hez kepest. Ugyhogy szerintem ezt a 'Ha szerinted...'-et kicsit elhamarkodtad. Nem vagy alig gyorsabb az adatcsere, es nem belso.

    Az a bajom amugy a cikkel, hogy azt sugallja, hogy ez mekkora performance elonyokkel jar az eddigi rendszerekhez kepest. Pedig valojaban csak az eddigi integralt rendszerekhez kepest jar performance elonnyel, a diszkret gpu-val ellatott rendszerekhez kepest nem. Persze az igaz, hogy az elso integralt lapka, ami heterogen processinget is tud. Csak ettol nem lesz gyorsabb, mint egy korabbi lapka diszkret gpu-val. Ez hianyzik belole.

  • lenox

    veterán

    válasz Abu85 #143 üzenetére

    És szerinted egy Atom méretű holmiban lehetséges volt akkor PCI Express x1 kapcsolatnál többet kiépíteni?

    Nvidia Ion? X16 + 4*X1.

    És a dedikált GPU fedélzeti memóriájába Panni néni majd bevarázsolja az adatokat ugye? :) A másik dolog, amiről megfeledkezel az a késleltetés. Minél több buszt használsz, annál több időd megy "kárba".

    Nem tudom, hogy ertetted-e az elozo hozzaszolasomat. Amikor a transfer speedrol beszeltem, az neked nem azt jelentette, hogy az adatok bemennek, vagy kijonnek a gpu fedelzeti memoriajabol? Erted, apu vs pcie, egyiknel ennyi a transfer speed, a masiknal annyi... A kesleltetes alatt a latency-re gondolsz? Mert ugye azt mar irtam fent, hogy egy opencl kernel launch kesleltetese tobb 100-szor annyi, mint a pcie busze, tehat tul sok jelentosege nincs. Ha csak arra gondolsz, hogy ki kell varni, mig odaernek az adatok, akkor meg az a transfer speedel fugg ossze, lasd fent.

    Ettől függetlenül megértettem a mondandód, és nyilvánvaló, hogy azért megy minden vállalat ebbe az irányba, mert nem jár előnyökkel. :)

    A masodik felebol ugy tunik nem erted, hogy tobb szempont van, amiben ez a mostani Fusion jobb a diszkret gpu-knal, a sebesseg spec. nincs koztuk. Pl. SoC-nal neveben is benne van, hogy az integraltsag a fo tenyezo, nem a sebesseg, hogy ezt milyen megfontolasbol hoztad fel peldanak??? Na majd meglatjuk a teszt eredmenyeket, ha lesznek, vajon egy csucs amd vagy nv kartyaval lesz-e nagyobb a teljesitmeny, vagy anelkul...
    Azert meg egyszer megprobalom. Ennek az APU design-nak a bottleneckje a memoriabusz. A gpu-t etetni kell adattal. Vajon ez hogy fog jobban menni, ha a cpu/gpu parosnak osszesen van elmeleti 27 GB/sec-je, vagy ha osszesen 180 GB/sec-je van. Szerintem a masodik esetben, szerinted az elsoben... Emlekszel, mi volt felirva az nv abrajara amire hivatkozol? 1.4 TB/sec. Na ok etetik adattal rendesen. Mondjuk ezt mar tobb, mint egy eve mondjuk neked emlekeim szerint, es meg mindig nem hiszed el.

  • lenox

    veterán

    válasz con_di_B #144 üzenetére

    1. Igen, de kivancsi vagyok, hogy az alkalmazasok hany szazalekaban kell masodpercenkent tobb ezerszer szinkronizalni es megis gpu-t hasznalni, mert akkor lenne ennek jelentosege. Szerintem elenyeszo, de mondd, ha tevednek.

    2. Igy van, azert is irtam, hogy a pcie latency microsec nagysagrendu, vagyis a 7GB/s-nek ez nem reciproka. Es ennek megint csak akkor lenne jelentosege, ha masodpercenkent sok ezer egymastol fuggetlen transzfert kene inditanod, ami megint csak az alkalmazasok elenyeszo reszeben van.

    3. Diszkret gpu-nal is lehet, es megint ismetelni tudom magam, hogy mikor van jelentosege a pcie nagyobb latencyjenek.

    Ettol fuggetlenul en elhiszem, hogy lehet olyan alkalmazast irni, hogy gyorsabb lesz ezen a platformon, mint diszkret gpu-val, pl. latency benchmark, csak azt ketlem, hogy az atlagos, de jol megirt alkalmazasoknal igy lenne.

  • lenox

    veterán

    válasz con_di_B #147 üzenetére

    1-2. Dontd el, hogy azt allitod, hogy bizonyos extrem esetben, vagy leggtobbszor igy van. Elobbi eset szamomra nem erdekes, utobbi esetben ezek szerint te azt allitod, hogy barmely gpu-s feladatban a szinkronizacio miatt ez a platform tobbszor gyorsabb lesz, mint barmely diszkret gpu. Arra meg akkor fogadjunk.

    3. Ha jobb a masolgatas, akkor nyilvan masolgatni kell. De ez erosen feladatfuggo, hogy mennyire lehet elfedni a kesleltetest, es hogy mennyi adatot, milyen gyakran kell elerni.

    Szerintem nem erdemes nagyon talalgatni, hogy mit gondolok, meg szerintem gpu temaban is eleg jo tapasztalatom van. A konkret esetben pontosan azt gondolom, hogy ezt a platformot es egy eros diszkret gpus platformot osszehasonlitva atlagos feladatnal ennel komolyabb bottleneck lesz a bandwidth, mint a diszkret gpus esetben a kesleltetes.

    #148 Na ne kezdj el visszakozni, szo sem volt ugyanannyi penzrol meg tdp-rol vagy helyrol, pontosan a felsokategorias gpu-krol volt szo. Latom vegiggondolva mar kezded atlatni, es igy probalsz kihatralni, de resen vagyok. Mar evek ota errol van szo egyebkent, Abu szerint az integracio miatt a diszkret gpu-k kihalnak, szerintem es meg neha mas is egyetert a diszkret gpu-k addig mindig nagyobb teljesitmenyt fognak hozni, amig nem lesz az integralt chipnek olyan memoriarendszere, mint amit a vga-kon csinalnak (egyebkent a ket allitas nem teljesen ellentetes, hiszen hiaba gyorsabb valami, ha uzletileg nem tud megelni). Nyilvan nem az entry level vga-krol van szo, hanem az erosebbekrol, legutoljara 100 dollar felettieket emlegettunk. Ez a platform is egyelore a 40-50$ koruli vgakig er csak fel. Mondjuk az tisztesseges, nem azt mondom, de nem nagyon latom, hogy merfoldko lenne altalaban, csakis az integralt megoldasok kozott.

  • lenox

    veterán

    válasz Abu85 #150 üzenetére

    Nem, nem neztem meg, mert nincs jelentosege, az egesz amiatt jon fel, hogy lehet-e a mobil eszkozben x16, igen lehet. Es igen, jol latod, hogy a meret a lenyeg, erted, nem a maximalis teljesitmeny. Eddig is ezt mondtam.

    Konkrétan az események szinkronjára gondolok. Az egy buszon keresztül nagyon fáj. Eddig ezért nem használták a fejlesztők, mert olyan késleltetések mellett, ami van a buszon értelmetlen. A rendszerszintű integráció értelmet ad ennek.

    Ez szerintem tevedes, pl. en is hasznaltam. Nyilvan en csak egy vagyok, de ettol meg lehetett hasznalni, aki akarta hasznalhatta, nem tulzottan valtozik semmi azzal, hogy most joval kisebb latency van, illetve annyi valtozik vele, hogy bizonyos algoritmusok ezzel hatekonnya valhatnak, kar, hogy csak limitalt teljesitmeny mellett van igy, ha nagyobb teljesitmeny kene, akkor nincs kis latency opcio, mert muszaj diszkret gput hasznalni, azzal ugyanis gyorsabb a rendszer.

    Én nem a Fusionról beszéltem, amikor az integráció értelmét elemeztem, hanem a konkrét előnyökről, amiért minden vállalat erre megy. Bár szerinted minden cég idióta mérnököket alkalmaznak. :))
    Nem tudom mire velni, hogy tovabbra is ugy teszel, mintha nem ertened, hogy nem csak egy cel lehet, pl. a max teljesitmeny biztos nem volt cel 2011-re, nem is ertek el, ettol meg uzletileg ennek van ertelme. En a mernokoket biztos nem idiotaztam le, de a mernokok tul szoktak latni a marketing rizsan. Spec en mar 2006-ban is kerdeztem az amd-seket, amikor jottek fusion-t prezentalni, hogy jo, de mit csinaljak vele, ha nem raknak ala gyors memoriabuszt, akkor ez tul gyors nem lesz. Mondjuk ok nem is ertetlenkedtek ennyit, mint te, hanem mondtak, hogy igen, de nem is az a celja.

    De a köztük lévő kommunikáció lassú, és a buszok fejlődése sokkal lassabb, mint ahogyan a lapkák fejlődének

    Igy van. Ezzel egyutt ha kiherelt memoriarendszert raksz az integralt chiped ala, akkor nem gyorsulni fog, hanem lassulni. Ahhoz, hogy gyorsuljon kell nagy memoriasavszelesseg is. Ezt kene mar felfogni. Persze sejtem, hogy valojaban mar reg egyetertesz, csak kotod az ebet a karohoz.

    #151:

    A késleltetés érzékenységnél meg maradok annál amegfogalmazásomnál, hogy sokkal többször, mint gondolnád.

    Ahogy tetszik, nyugodtan lenezhetsz, szerintem van mar akkora szakmai elismertsegem, hogy ebbe ne halljak bele :).

    #153:
    Bocs, de ezek nem összehasonlítható dolgok. A PCIe busz latency-t a belső adatbusz latency-vel hasonlítsd össze, az opencl API hívás idejét meg egy DX API hívás végrehajtási idejével.

    Ok, majd elgondolkozom rajta. De szerintem nincs igazad, mivel a vegrehajtasi ido nem csak pcie latencybol all, tehat erdemes tudni, hogy ennek a latencynek mekkora jelentosege van az egesz processing szempontjabol, tehat hogy hogy viszonyul a tobbi idohoz. Pont ezert erdekes, hogy mar pl. az opencl kernel launch overheadjehez kepest is elhanyagolhato, ugyhogy erre hivatkozva allitani, hogy a diszkret gpu-s rendszerek annyival lassabbak, mint az integraltak, hogy foglalkozni sem erdemes veluk, eleg erdekes.

    #155:
    Mit keverek szerinted? Pontosan mit mivel? Amugy abban egyetertunk, hogy a high-end gpu-k erosebbek, nem pont ezt mondom mar sok hozzaszolason keresztul?
    Kulonben pont most portolok fizika szamitast gpu-ra, szerintem kepben vagyok.

  • lenox

    veterán

    válasz Abu85 #157 üzenetére

    Erdekes, hogy pl. a #128-ban tudtad meg idezni tolem, hogy szerintem milyen elonye van az integracionak, de mostanra meg mar ugy tudod, hogy szerintem nincs elonye, es nyomatod, hogy kit hulyezek le ezzel mar tobb hozzaszolas ota. Terelesnek jo, de amugy nem tartom melto hozzaallasnak, gondolkozz el ezen szerintem. Legyszi a nevemben mostantol ne hulyezz le senkit, majd en megteszem, ha ugy latom jonak, koszi.

    És mégis ki mondta, hogy a második vagy a harmadik generációs Fusion alatt már nem lesz combos memóriaalrendszer?

    Egyelore nem tudok senkirol, aki mondta volna, de azt, hogy mi hianyzik meg az igazi fejlodeshez, azt spec. en mar pont mondtam, ez az egyik. Ugyhogy en varom is, hogy lesz, teljesen logikus lepes lenne. Aztan arrol lehet otletelni, hogy ez azert draga lesz entry level alaplapra tenni, de kell, ezert fel lehet rakni a memoriarendszert a gpu/cpu integralt chippel egy kartyara, es azt bedugni az alaplapba, vagyis hogy idovel az en tippem szerint nem a gpu fog lekoltozni a cpuba, hanem a cpu fog felkoltozni a 'grafkartyara', legalabbis a desktopon. De monduk ez csak egy tipp.

    [ Szerkesztve ]

  • lenox

    veterán

    válasz freeapro #161 üzenetére

    Na pont a directx-hez szinte semmit nem ertek, bocs. OpenGL, OpenCL, Cuda az oke. Szoval ha az opengl-re gondolok egyreszt nem gondolnam, hogy belathato idon belul driver nelkul mukodjon csupan mikrokoddal, de nem is ez a lenyeg, hanem hogy jo nagy szoftver overheadje van, nem a pcie latency az erdekes.

    Szerintem en is pont azt irtam, hogy fogyasztas szempontjabol kiraly, csak el kene olvasni. Nekem annyi nem tetszik, hogy itt ajnarozzatok az integraciot, hogy ez mar lehetove teszi a heterogen processinget, ami eddig ertelmetlen volt, mert a pcie busz visszafogta. Egyreszt eddig is koszoni mukodott, masreszt ez a mostani egy igen pici lepes ebbol a szempontbol.

    #160 Termeszetesen van, mar irtam is, hogy milyen kellene legyen a killer rendszer, a mostani sok szempontbol jo, spec heterogen processing hatekonysaga szempontjabol eleg kis lepes az eddigiekhez kepest, lasd eddigi hozzaszolasaim, hogy miert. Ehhez kepest te ugy allitod be, mintha eddig semmit nem lehetett volna csinalni, most meg mar mindent, ezzel en nem ertek egyet.

  • lenox

    veterán

    válasz con_di_B #169 üzenetére

    Nem volt eddig erdeklodes egyaltalan. Mondjuk ha jol ertem te akartal engem bevezetni a gpuk rejtelmeibe es nekem sem tartott par oranal tovabb, ugyhogy feltetelezem magadtol is menne, de mondd, hogy mire vagy kivancsi.

  • lenox

    veterán

    válasz dezz #172 üzenetére

    Veletlenul talaltam:

    http://www.gdiamos.net/papers/cudaLatency.pdf

    Erdekessegkeppen az a konkluzio, hogy a pcie bandwidthnek es latencynek alig van hatasa a teljesitmenyre... Ezt mar hallottam valakitol :). Nyilvan fentartassal erdemes kezelni, mert erosen alkalmazasfuggo.

    [ Szerkesztve ]

Új hozzászólás Aktív témák