Paikallisen AI:n kokoonpanot

Liittynyt
23.01.2018
Viestejä
941
AMD Strix Halo eli AMD Ryzen AI Max+ 395 yhdessä 128GB muistin kanssa on oiva ajoalusta suurempienkin kielimallien ajamiseen. Strix Halosta saa laitteen, jossa voi osoittaa 96 GB muistia GPU:lle kielimallin käyttöön. Koska tässä on edelleen kyse PC:stä, voi laitetta käyttää niin Linuxin kuin Windowsin kanssa. Kielimallien ajoon paras yhdistelmä lienee tällä hetkellä Ubuntu Linux 24.04 + Rocm 7.0-ohjelmisto sekä vLLM itse kielimallien ajamiseen,

Strix Halo-laitteita saa pöytätyöasemana useammaltakin toimittajalta. Frame.Work on myynyt omaa laitettaan jo toista kuukautta, mutta Minisforumin uusi MS-S1 MAX on tullut myyntiin juuri uutena vaihtoehtona Frame.Workille. Frame.Work "barebone" ilman SSD-levyjä maksaa 2359 eur. Toisaalta Minisforumin saa muutaman päivän ajan 200 eur alennuksella kokonaishintaan 2199 eur ja tähän sisältyy myös 2 TB:n SSD. Jos siis tehokas kokoonpano kielimallien testailuun kiinnostaa, niin nyt kannattaa toimia.

200 eur alennuksen saa seuraavalla koodilla:

Copy Your Exclusive Discount Code:S1MAX

Coupon validity period:9.26-10.3 PST

Frame.Workin taas saa tilattua täältä:
Tästä artikkelista saa käsitystä mihin Strix Halo pystyy:
Edit:
Kotikäyttöön budjetiltaan sopivia ratkaisuja, joissa voi ajaa yhtä suuria kielimalleja ei ole markkinassa järin paljon saatavilla. Strix Halon lisäksi on ainakin Nvidian DGX Spark, jonka ilmoitettu hinta USA:ssa on luokkaa 4000$. Toimitukset eivät ole vielä alkaneet ja suorituskykytestejä ei ole saatavilla. DGX Halo on ARM-prosessoreihin perustuva alusta, joka käyttää omaa sille tehtyä Linux-jakelua.
 
Viimeksi muokattu:
Mikä tuossa on parempaa? DGX Spark maksaa melkein tuplat vs Strix Halo, tukee parhaimmillaankin FP4-liukulukuja ja ei ole läheskään niin yleiskäyttöinen kuin Strix Halo, josta voit tehdä vaikka peli-PC:n, kun kielimallien ajaminen ei enää innosta.

Se AI-suorituskyky - ainakin paperilla. Tämähän oli geneerinen ketju, eikä pelkkä Strix Halo?
 
Se AI-suorituskyky - ainakin paperilla. Tämähän oli geneerinen ketju, eikä pelkkä Strix Halo?
DGX Sparkin suorituskykytestejä ei edelleenkään löydy mistään, joten sen suorituskyvystä ei osaa kukaan sanoa mitään. Mutta speksien mukaan se ei tue FP8-quantisoidun kielimallin ajamista.

DGX Sparkia ei myöskään pysty vielä ostamaan. Nvidian forumilla ennakkovarauksen tehneet innokkaat odottavat tuskaisena tietoa toimitusten aloittamisesta.
 
DGX Sparkin suorituskykytestejä ei edelleenkään löydy mistään, joten sen suorituskyvystä ei osaa kukaan sanoa mitään. Mutta speksien mukaan se ei tue FP8-quantisoidun kielimallin ajamista.

DGX Sparkia ei myöskään pysty vielä ostamaan. Nvidian forumilla ennakkovarauksen tehneet innokkaat odottavat tuskaisena tietoa toimitusten aloittamisesta.

Saako sitä aloitusviestin Strix Halo -tuotetta tänään kaupoista?
 
Saako sitä aloitusviestin Strix Halo -tuotetta tänään kaupoista?
Strix Haloa on toimitettu eri muodoissaan jo kuukausia ja siitä löytyy runsaasti suorituskykytestejä. Minisforumin Strix Halo julkaistiin juuri ja toimitukset alkavat kuukauden päästä. Frame.Workia on toimitettu jo pari kuukautta, joskin kysyntä on niin suurta, että jos tilaat sellaisen nyt, niin saat omasi vuoden lopussa,

DGX Sparkia ei ole toimitettu asiakkaille ensimmäistäkään.

Frame.workin saa tilattua täältä: Configure Framework Desktop DIY Edition (AMD Ryzen™ AI Max 300 Series)
 
Ehkä kannattaa vaihtaa ketjun otsikko "Strix Halo -desktopit", tms. , kun vaihtoehtoja kohdataan tällaisella vihamielisyydellä.
 
Ehkä kannattaa vaihtaa ketjun otsikko "Strix Halo -desktopit", tms. , kun vaihtoehtoja kohdataan tällaisella vihamielisyydellä.
Puutuin väitteeseesi: "Tuossa olisi parempi". Perusteluksi ei riitä linkki Nvidian tuotesivulle ja perustelemattoman väitteen kyseenalaistaminen ei ole "vihamielisyyttä". On hienoa, jos lokaalien kielimallien ajamiseen on useita vaihtoehtoja, mutta en osta ajatusta, että 2x kalliimpi DGX Spark on automaattisesti "parempi" - etenkin, kun DGX Sparkista ei ole yhtään suorityskykytestiä saatavilla mistään. Julkisten tietojen perusteella se on nopeudeltaan suunnilleen RTX 5070-tasoa.
 
Viimeksi muokattu:
Testasin 5090:lla ja macbook pro m4 max:lla ollaman kautta gpt-oss:120b mallia promptilla "kirjoita pitkä tarina keravan kirvesmurhaajasta". 5090:en muistinvähyydestä johtuen macbook pro m4 max oli 4x nopeampi kuin 5090:en. Miten lie nuo amd:n härpättimet jaksaisivat, puolet m4 max:in nopeudesta?

Sivuhuomiona, että imho. tuo 120B malli on niin huono etten edelleenkään käyttäisi lokaaleja malleja versus maksulliset pilvihärpättimet. Varsinkin kun lokaalirauta ja siihen laitettu raha mätänee käsiin, pilvessä rauta päivittyy vuosittain.

5090:en
1759151002302.png


macbook pro m4 max 128GB
1759151066439.png


Sama prompti gpt-oss:20b mallilla 5090 215.2token/s ja m4 max 85.5 token/s. Tässä näkee miten raaka suorituskyky puhuu kun muistinmäärä ei tule esteeksi. Tosin m4 max ottean huomioon virrankulutuksen on melko upea vs. 5090. Voipi toki olla, että tuollainen prompti liian keveä ja ei rasita gpu:ta maksimaalisesti. Voi myös olla, että ollamaa ei ole yhtä hyvin optimoitu eri raudoille niin vertailut epäreiluja.
 
Viimeksi muokattu:
Sama prompti gpt-oss:20b mallilla 5090 215.2token/s ja m4 max 85.5 token/s. Tässä näkee miten raaka suorituskyky puhuu kun muistinmäärä ei tule esteeksi. Tosin m4 max ottean huomioon virrankulutuksen on melko upea vs. 5090. Voipi toki olla, että tuollainen prompti liian keveä ja ei rasita gpu:ta maksimaalisesti. Voi myös olla, että ollamaa ei ole yhtä hyvin optimoitu eri raudoille niin vertailut epäreiluja.
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s. Alempi luku perustuu ROCm 7:ään ja korkeampi Vulkaniin. Testaan itse kun saan tilaamani Minisforumin.
Joku Reddit-käyttäjä on testannut tuota gpt-oss:120b-mallia Strix Halolla ja saanut Ollamalla tulokseksi 3750 t/s promt eval.
 
Viimeksi muokattu:
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s. Alempi luku perustuu ROCm 7:ään ja korkeampi Vulkaniin. Testaan itse kun saan tilaamani Minisforumin.
Joku Reddit-käyttäjä on testannut tuota gpt-oss:120b-mallia Strix Halolla ja saanut Ollamalla tulokseksi 3750 t/s promt eval.
Perustin heiton nopeudesta muistikaistaan. Aika hyvin llm suorituskyky skaalaa muistikaistan suhteen. Halo strix about 256GB/s, m4 max 546GB/s ja 5090:en 1800GB/s (pyöreät ei tarkat numerot, kokoluokka oikea)

Menee omenia ja appelsiineja vertailuksi kun käytetään eri frameworkkeja ja eri prompteja. Mä käytän ollamaa sen helppouden vuoksi vaikka ei ole optimaalisimman nopea. Todellisuudessa en ole noilla lokaaleille löytänyt käyttötarkoitusta kun niiden tuottama laatu ei riitä versus pilvi. Pilvi muutenkin halpaa versus jos pitää ostaa käsiin mätänevää rautaa. Mulla toi m4 max ja 5090:en muista kuin llm syistä, mutta bonus että voi llm:ia testailla lokaalisti.

Mulle relevantit lokaalit ai-kuormat löytyy davinci resolve, skylum luminar neo, topaz video/photo/gigapixel jne. appseista. mäkillä reissunvarrelta akunvarassa ja kotosalla 5090:lla.
 
Viimeksi muokattu:
Juu itsekin olen ajoittain kokeillut local malleja koodin tekemiseen mutta kyllä niiden tulos on ainakin yhdellä näyttiksellä niin surkeaa verrattuna GPT-5, claude ja vastaaviin malleihin että itse käytän näyttistä lähinnä kuvien ja VR-kokemusten generoimiseen missä suorituskyky onkin sitten todella hyvä.
 
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s.
Toi on prompt processing nopeus. Eli kun annat sille 12000 tokenin pituisen uutisartikkelin ja käskyn kirjoittaa tiivistelmän siitä niin se käsittelee tuon promptin 10 sekunnissa, jos pp = 1200t/s.

Text generation testissä näkyy tulos 73,15 t/s, eli se kirjoittaa ulostaa vastausta promptiisi tuota vauhtia. Tg nopeus tosin putoaa mitä pidempi konteksti kyseessä.
 
Perustin heiton nopeudesta muistikaistaan. Aika hyvin llm suorituskyky skaalaa muistikaistan suhteen.
Jos jaksat, niin aja vähän testejä 5090:lla lataamalla ~niin iso malli kuin fiksusti mahtuu ja sitten ajat testit kiinteällä gpu-kellotaajuudella vaikka kolmella / neljällä eri muistitaajuudella, tyyliin 25%, 50%, 75% ja 100% maksimeista.

Sen jälkeen sama muistit kiinteällä 100% taajuudella ja kellotat gpu:ta 25,50,75 ja 100% kellotaajuudelle, niin saat kohtuulliset käyrät siitä että miten homma skaalaa kummankin muuttujan suhteen.
 
Jos jaksat, niin aja vähän testejä 5090:lla lataamalla ~niin iso malli kuin fiksusti mahtuu ja sitten ajat testit kiinteällä gpu-kellotaajuudella vaikka kolmella / neljällä eri muistitaajuudella, tyyliin 25%, 50%, 75% ja 100% maksimeista.

Sen jälkeen sama muistit kiinteällä 100% taajuudella ja kellotat gpu:ta 25,50,75 ja 100% kellotaajuudelle, niin saat kohtuulliset käyrät siitä että miten homma skaalaa kummankin muuttujan suhteen.
Ei tuollaista jaksa alkaa huvikseen tekemään eikä edes pikkurahasta. Jos tuollaiset asiat kiinnostavat niin tämä artikkeli on hyvä: MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive Hyvin syväluotaava katsaus mistä suorituskyky koostuu ja missä amd/nvidia konesalirauta heikkoudet/vahvuudet ovat. TLDR, muistikaista ja sen suhteen optimoitu laskentayksiköiden määrä asettaa teoreettisen maksimin, softapinon ja optimointien hyvyydestä riippuen päästään lähemmäs/kauemmas teoreettisesta maksimista. Varsinkin juuri julkaistulla raudalla jäädään todella kauas teoreettisesta maksimista versus kun softaa on optimoitu vuosi tai kaksi samalle raudalle.
 
Uteliaisuuttani, mitä tarkoitat tällä?
Käytän tätä softaa GitHub - nagadomi/nunif: Misc; latest version of waifu2x; 2D video to stereo 3D video conversion ajoittain generoimaan erilaisista kuvista ja videoista stereoskooppisia videoita mitä katson VR laseilla vaihtelevalla menestyksellä. Noin yleisesti kuvakollaasien generoiminen saa paremman tuloksen kuin videot. Uusimmassa versiossa myös mahdollisuus koittaa reaaliajassa tietokoneen desktopin kääntöä stereo3D:ksi ja katselu langattomasti vr laseilla mutta sitä en ole vielä kerennyt kokeilemaan.

e. ja koska asetusten hakuun meni aika kauan niin tässä kuvakaappaus omista parhaista asetuksista Quest 3 laseille. Depth resolutionin voi myös nostaa esim 800 mutta silloin generointiin menee moninkertaisesti aikaa.

Screenshot 2025-10-02 121003.png
 
Viimeksi muokattu:
Käytän tätä softaa GitHub - nagadomi/nunif: Misc; latest version of waifu2x; 2D video to stereo 3D video conversion ajoittain generoimaan erilaisista kuvista ja videoista stereoskooppisia videoita mitä katson VR laseilla vaihtelevalla menestyksellä. Noin yleisesti kuvakollaasien generoiminen saa paremman tuloksen kuin videot. Uusimmassa versiossa myös mahdollisuus koittaa reaaliajassa tietokoneen desktopin kääntöä stereo3D:ksi ja katselu langattomasti vr laseilla mutta sitä en ole vielä kerennyt kokeilemaan.
Kiitoksia! Pitääkin kurkata..
 
dxg sparkissa on sellainen ero noihin muihin, että se on suunniteltu niin että niitä saadaan kaksi liitettyä nopealla verkolla yhteen(ConnectX-7 Smart NIC) ja tuplattua neuroverkon koko. Tähän päälle toki se nvidian softatuki, että tuo oikeasti onnistuu muutenkin kuin tuurilla. En usko, että dgx spark:ia on tarkoitettu mihinkään muuhun kuin debug-työkaluksi että malleja kehittävät tyypit voivat debugata/testata lokaalisti versus pilvi. Liian hidas noin isojen mallien tuotantokäyttöön.

Jos haluaisi oikeasti "nopean" lokaalin myös tuotantokäyttöön niin GB300 dgx station lienee oikea valinta. Hintaa voi arvuutella onko se 5 vai 6 numeroinen. Pilvi alkaa tuntumaan yhtäkkiä kovin halvalta vaikka maksaisi 200e/kk openai:lle ja 200e/kk anthropicille. Okei maksat vuodessa 4800e, dgx sparkin hinnan mutta sais ihan jotain muuta suorituskykyä/toimivuutta ja kahden eri frontier pajan parhaat mallit + jos pilvessä rauta päivittyy niin systeemit toimii joko nopeammin tai paremmin ilman lisämaksua.
- NVIDIA GB300 Grace Blackwell Ultra Desktop Superchip
- 496GB LPDDR5X CPU memory, 288GB HBM3e GPU memory
- Supports up to 1 trillion parameter models
- 20 Petaflops (20,000 TFLOPS) of FP4 computing power
- NVIDIA DGXTM OS on Linux & NVIDIA AI Enterprise software stack
 
Viimeksi muokattu:
dxg sparkissa on sellainen ero noihin muihin, että se on suunniteltu niin että niitä saadaan kaksi liitettyä nopealla verkolla yhteen(ConnectX-7 Smart NIC) ja tuplattua neuroverkon koko. Tähän päälle toki se nvidian softatuki, että tuo oikeasti onnistuu muutenkin kuin tuurilla. En usko, että dgx spark:ia on tarkoitettu mihinkään muuhun kuin debug-työkaluksi että malleja kehittävät tyypit voivat debugata/testata lokaalisti versus pilvi. Liian hidas noin isojen mallien tuotantokäyttöön.

Jos haluaisi oikeasti "nopean" lokaalin myös tuotantokäyttöön niin GB300 dgx station lienee oikea valinta. Hintaa voi arvuutella onko se 5 vai 6 numeroinen. Pilvi alkaa tuntumaan yhtäkkiä kovin halvalta vaikka maksaisi 200e/kk openai:lle ja 200e/kk anthropicille. Okei maksat vuodessa 4800e, dgx sparkin hinnan mutta sais ihan jotain muuta suorituskykyä/toimivuutta ja kahden eri frontier pajan parhaat mallit + jos pilvessä rauta päivittyy niin systeemit toimii joko nopeammin tai paremmin ilman lisämaksua.
Se pointti tässä ketjun alkupuolellakin oli, ettei nuo DGX Sparkit puhumattamaan DGX Stationista ole kotilablan välineitä - aivan liian kalliita ja käyttötarkoitukseltaan rajoittuneita. Tällaiset PC-rautaan perustuvat laitteet käyvät myös muuhun käyttöön. Tuosta Strix Halosta saa myös asiallisen pöytäkoneen tai virtuaalipalvelinalustan kotilabraan.
 
Viimeksi muokattu:
Se pointti tässä ketjun alkupuolellakin oli, ettei nuo DGX Sparkit puhumattamaan DGX Stationista oli kotilablan välineitä - aivan liian kalliita ja käyttätarkoitukseltaan rajoittuneita. Tällaiset PC-rautaan perustuvat laitteet käyvät myös muuhun käyttöön. Tuosta Strix Halosta saa myös asiallisen pöytäkoneen tai virtuaalipalvelinalustan kotilabraan.
No en mä parin tai kolmenkaan tonnin laitetta ostaisi llm-käyttöön(koodi, tsätti, tekstinluonti) kotiin. Lokaalit mallit on paskoja poislukien joku overfit kysymys kuten "koodaa quicksort". pc-laitteen hinnalla ostat yhdeltä palveluntarjoajalta superpilven yli vuodeksi millä oikeasti tekee paljon asioita. Okei, sulla on 1v, 1.5v päästä ilmainen rauta versus paras pilvi(200e/kk) mihin rahat katosi. Toisaalta tässä kohtaa ilmainen rauta on edelleen ihan huono.

En ole keksinyt noille lokaaleille mitään lelukäyttöä kummempaa versus mitä openai/anthropic/... pilvi antaa ulos. Esim. koodausavustin tai tekstin luonti.

20e/kk halpispilvikin parempi kuin paras järkevä lokaalirauta. Halpispilveä saa hehkuyttaa vuosia ja vuosia käyttää pc-raudan hinnalla. Halpispilvessä myös rauta paranee vuosi vuodelta toisin kuin sen kotiraudan kanssa mikä on jumissa hankintahetken speksissä. Tokenien hinta pilvessä tippuu about 10x vuositahdolla jos pidetään vastausten laatu vuodesta toiseen samana.

Reilun vuoden lokaalien llm:ien kanssa leikkinyt kiitos m4 max pro:n + 128GB. Ei ole löytynyt käyttötapausta lokaalille versus pilvi. Lokaalin laatu ei riitä niin jäänyt vain leluksi millä testaa uudet mallit ja pettyy kerta toisensa jälkeen versus mitä pilvi saa aikaiseksi.
 
Viimeksi muokattu:
No en mä parin tai kolmenkaan tonnin laitetta ostaisi llm-käyttöön kotiin. Ne lokaalit mallit on paskoja, tollasen laitteen hinnalla ostat yhdeltä palveluntarjoajalta superpilven yli vuodeksi versus lokaali. Okei, sulla on 1v, 1.5v päästä ilmainen rauta versus paras pilvi(200e/kk) mutta se ilmainen on edelleen ihan paska siinä missä pilvessä on taas vuoden uudempaa rautaa. En mä ole keksinyt noille lokaaleille mitään lelukäyttöä kummempaa versus mitä openai/anthropic/... pilvi antaa ulos. Esim. koodausavustin tai tekstin luonti. Todelloisuudessa se 20e/kk entry level pilvikin parempi kuin paras järkevä lokaalirauta ja tota entry level pilveä saa vuosia ja vuosia käyttää pc-raudan hinnalla.
Kyllä, mutta täytyyhän ihmisellä harrastuksia olla. Tämä on halpa harrastus esimerkiksi hevoseen nähden.
 
Kyllä, mutta täytyyhän ihmisellä harrastuksia olla. Tämä on halpa harrastus esimerkiksi hevoseen nähden.
Halusin vain tuoda realismia tähän ettei joku osta noita kuvitellen, että se vaikka koodaa projektit tai oikeasti tekee äidinkielenaineet/historian esseet koulutehtäviin. Testaa lokaalia, pettyy ja haukkuu ettei ai toimi samalla kun jää huomaamatta, että ne oikeesti toimivat järjestelmät vaativat konesalitason rautaa. Konesalin halvin 20e/kk tms. kepittää lokaalit 100-0 ja ei maksa juur mitään versus se 2000e, 3000e pömpeli tai mun tapauksessa aika paljon kalliimpi m4 max pro 128GB tai 5090:en ympärille kasattu yllättävän kallis pumpum/videoeditointikone.
 
Halusin vain tuoda realismia tähän ettei joku osta noita kuvitellen, että se vaikka koodaa projektit tai oikeasti tekee äidinkielenaineet/historian esseet koulutehtäviin. Testaa lokaalia, pettyy ja haukkuu ettei ai toimi samalla kun jää huomaamatta, että ne oikeesti toimivat järjestelmät vaativat konesalitason rautaa. Konesalin halvin 20e/kk tms. kepittää lokaalit 100-0 ja ei maksa juur mitään versus se 2000e, 3000e pömpeli tai mun tapauksessa aika paljon kalliimpi m4 max pro 128GB tai 5090:en ympärille kasattu yllättävän kallis pumpum/videoeditointikone.
Olen jo ennestään ajanut kotikoneella paljon suurempia malleja, joten tiedän tarkalleen mihin ne kykenevät. Ja kyllä, on myös Chatgpt Enterprise käytössä.

Edellinen kotilabrakone oli 64 core EPYC + 512 GB ram sekä 32 GB Radeon Pro-ohjain.
 
Strix Halo hyötyy hyvin siitä, että MoE LLM:t on yleistyneet dramaattisesti tänä vuonna. Jos oltaisiin vielä dense mallien valtakaudella niin toi muistikapasiteetin ja laskentatehon välinen balanssi olisi aika kehno.

MoE mallit tekee tosin myös CPU+GPU inferenssistä entistä käyttökelpoisempaa. Llama.cpp mahdollistaa järkevän kuorman jakamisen: Mallin raskaat osat GPU:n hoidettavaksi VRAMiin, CPU:lle offloadataan pelkästään experttejä.

7600X DDR5-6000 96 Gt + 4090 kombolla olen näiden kanssa puuhaillut, gpt-oss-120b puskee tekstiä hyvinkin käyttökelpoiset ~25t/s. Qwen3-235B ~7t/s, joka alkaa olla jo melkoista matelua. Tuo EPYC olisi kai aika kova alusta tähän hommaan kun muistikaistaa saa moninkertaisesti vs AM5.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
288 671
Viestejä
4 948 106
Jäsenet
79 515
Uusin jäsen
MikkoHaa

Hinta.fi

Back
Ylös Bottom