Hirdetés

Új hozzászólás Aktív témák

  • Raymond

    félisten

    válasz MasterDeeJay #5 üzenetére

    A korlatozas a konkret TensortRT es model formatum/verzio kombinaciojabol akad, a 20-as sorozat nem tamogat minden formatumot, gondolom a bfloat16 amit hasznalnak. A 8GB kartyakon a Mistral-7b a 10GB+ kartyakon pedig a Llama-2-13b tudtommal mindketto a 4bit quantized valtozat.

    Az LM Studio-ban a Llama-2-7b 5bit-es verzioja (Q5_K_M) egy sima RTX2080-al olyan 55 tok/s sebeseget ad.

    Az NV demot eleg problemas letolteni, nalam csak 8-10Mbit-el jott es azert igy 35GB altart egy darabig. Hagytam menni, de olyan 11GB korul megszakadt. Az hogy mennyit hozna a TensorRT egy 4090-el nem tudom, de Stable Diffusion generalasnal a konvertalt modellek olyan 70-75% pluszt hoztak sebessegben a simahoz kepest.

    Privat velemeny - keretik nem megkovezni...

Új hozzászólás Aktív témák