- Liittynyt
- 21.02.2017
- Viestejä
- 5 757
Llama 3.3 70B ( vaatii n. 40 GB muistia GPU:lta) kielimallin ajaminen lokaalisti kiinnostaisi, mutta mietin mikä olisi halvin vaihtoehto, jolla tämä onnistuisi vielä kohtalaisesti. Mitä olen netistä lukenut, niin
-Mac Mini M4 Pro 64 GB n. 2500 euroa n. 5 tokens/s
-Macbook Pro M4 Max 64/128 GB n. 5000-6000 euroa n. 10 tokens/s
-Kahden GPU:n systeemi NVIDIA tai AMD n. 3000 euroa ? tokens/s virrankulutus?
Ite ajanut tuota yhdellä 4090:llä. 2,5-bittiseksi kvantisoituna (iq2_s) ja kv-cache q8 niin pyörii n. 8k kontekstilla nippanappa. Toki laatu kärsii noin pieneksi puserrettuna enemmän mutta mitenkään rikki ei mene esim kieliopillisesti tms.
Käytetyt 3090:t suosiossa alan harrastajien parissa, AMD:llä tekoälyjutut laahaa yhä perässä. R/localllama subredditiin kandee sukeltaa jos meinaat tuhansia upottaa projektiin, luulen että rahan arvoisia vinkkejä ym.
Kandee myös huomioida pienemmät, yhteen näyttikseen helpommin mahtuvat mallit esim Gemma 27b ja Qwen 2.5 32b. L3 70b ei ole mitenkään valovuosia edellä.