Keresés

Hirdetés

Új hozzászólás Aktív témák

  • lenox

    veterán

    Tom Malloy szerint a legfontosabb képesség a programozók szemszögéből az egységes címtér lenne, mely jelentősen megkönnyítené a teljesítmény portolhatóságát, illetve a fejlesztők munkáját.

    Nem tudom, nekem ez nem hangzik igaznak. Szoval egy megfelelo nagy cache-sel gyorsitott egyseges cimter az persze jo lenne, de a mai allapot szerint, amikor a legtobb esetben van egy gyors es egy lassu memoriaterulet, akkor a kettot egyseges cimterbe vonni az a teljesitmenyt inkabb gatolna, mint segitene. Persze azt ertem, hogy egy APU-nal, ahol egyfajta memoriaterulet van, ott ez mindegy, de pont a kovetkezo lepes az, hogy megint ketfajta memoriaterulet lesz, nem?
    Amugy en Tom Malloytol csak azt latom, hogy a portolhatosagot segitene az egyseges cimter, ebben a mondatban teljesitmenyrol nincs szo.

  • lenox

    veterán

    válasz Abu85 #6 üzenetére

    Ok, en ezt mashol mas mondatokkal latom, meg ahol ez a mondat van, ott vesszo van a performance es a portability kozott, szoval szerintem 'performance portability' egyutt nincs.

    Amugy akkor ez egy tevedes. A memcached key lookup nyilvan akkor mukodne jol diszkret gpu-n, ha nem kell odatranszferalni, nem tudom ki csinalta a grafikont, de ennek igy semmi ertelme sincs, meg 5870, az mikor volt mar?

    A kovetkezo lepes nem a chipre integralt gyors memoria lesz? Ahhoz gondolod, hogy pcie buszon fog menni az adat a main memorybol? Szerintem erdemes tul latni a marketinganyagon. A pcie busz okozta bottlenecknek nem az egyseges cimter a megoldasa, azt pcie busszal is meg lehet oldani, es majd csodalkoznal, hogy hol gyors, hol meg lassu a programod, annak megfeleloen, hogy hova tudtad foglalni a buffered. Ujra el lehet vitatkozni ezen, de az teny marad, hogy gyors memoriat csak megfelelo meretu cache-sel lehet valamennyire kivaltani, ami draga, ugyhogy nem valoszinu, hogy elterjed. Ha pedig van gyors memoria, akkor azt megkulonboztetve kell kezelni a lassutol, legalabbis ha performance-t akar az ember. Ha portability fontosabb, akkor persze lehet egyseges.

  • lenox

    veterán

    válasz Abu85 #20 üzenetére

    Amugy akkor szerintem az lehet a megfejtes, hogy ha egyseges cimter van, akkor ahhoz kepest jobb a teljesitmeny, mintha nem hasznalnak a gpu gyorsitast, mivel akkor tobb projektnel eri meg gpu gyorsitast alkalmazni.

    Olyan szempontbol nem lenyegtelen, hogy ez az aktualis technika, ami gyorsan valtozik, szoval azert, mert 2 evvel ezelott valaki mondott valamit, aminek alatamasztasara csinalt egy merest, az ma mar egy masik allitas, vagy hasonlo, de mas kornyezetben megfogalmazodo allitas alatamasztasara nem biztos, hogy alkalmas. Egyebkent azt a reszt azert gondolom vetted, hogy rakhatsz a pcie buszra dugott gpu memoriajara is egyseges cimteret, attol gyorsabb nem lesz, igy ez a ket dolog, nevezetesen az egyseges cimter es hogy pcie buszra kell-e dugni az accelerator kartyat teljesen fuggetlen dolog, tehat az egyikre hivatkozni, hogy a masikra vonatkozo allitast tamasszunk ala, ez teljesen ertelmetlen.

    Amugy visszaterve az elozo peldara, 2 evvel ezelott opencl-lel olyan 1.5-2 GB/sec koruli effektiv mem-gpu mem bandwidth-t lehetett elerni, es egy dual proc workstation-ben olyan 9-10 GB/sec effektiv memory bandwidth-t, kb ilyen arany latszik a linkelt grafikonon. Jelenleg egy Z800 workstationben kb. 5.5-6 GB/sec mem-gpu mem bandwidth-t lehet elerni, meg mindig 9-10 GB/sec memory bandwidth mellett, szoval a bottleneck joval kisebb, mint amit a grafikon mutat. A PCIE3-at meg nem mertem ki, de elvileg kb. duplazodik a sebesseg. A mem bandwidth pedig olvasasra 15 GB/sec, irasra 6 GB/sec dual proc SB-nel, szoval amig ez a problema meg nem javul, addig bizonyos esetekben egal, mas esetekben pedig 30% a performance hit a PCIE busznal, ha megjavul, akkor gondolom allando 30% lesz. De ez mar regen nem az, mint a kezdeti 2 vs 10. Persze latency meg mindig van, ami alkalmazastol fuggoen vagy erdekes, vagy nem, amiket en csinalok, azoknal foleg nem, az Adobe-nal is foleg nem.

    Az egyseges cimter, meg koherens memoria meg killer feature, de nem teljesitmeny szempontjabol, illetve csak ugy teljesitmeny szempontjabol, hogy olyanok is hasznalnak altala gpu gyorsitast, akik amugy nem tennek.
    Kivancsi leszek a stacked memory-ra, de nekem valahogy nagyon nehezen elkepzelhetonek tunik, hogy 64 MB cache-t csinaljon valaki, pedig az mar nagyon-nagyon minimum.

    dezz: Kivancsi leszek, ha igy lesz, akkor szuper lesz, de nekem hirtelen nem jut eszembe jobb otlet, minthogy cache-sel lehet ezt ertelmesen megcsinalni, akkor meg a cache mennyisege hatarolja be a jol megoldhato feladatokat.

Új hozzászólás Aktív témák