Paikallisesti pyörivät LLM koodausavustimet

xanaki · 12.03.2026

Toivottavasti ei ollut väärä ratkaisu tehä omaa thriidiä tälle. Ajattelin että voisi olla hyvä olla oma ketju näille omassa lokaalissa pyöriville AI-koodausavustimille.

Mä asensin viime viikolla sen uuden Qwen 3.5 9B mallin pyörimään mun Linuxissa LM Studion kautta. LM Studio antaa sun ladata mallit jotka haluat itsellesi pyörimään ja tehdä niihin säätöjä. Siinä on myös CLI jolla voi komentoriviltä käskyttää LM studiota eri tavoin. Omalla koneella pyörittäessä sun data ei siirry hämärään pilveen muuhun käyttöön...

Integraatio ainakin Claude Codeen ja esim. VS Code editoriin pitäisi onnistua suht. iisisti. Tässä Clauden ohjeita sivulta. LM Studio+ClaudeCode: Use your LM Studio Models in Claude Code

Tuo Qwen on testeissä osoittautunut pienempikokoisena monesti paremmaksi kuin kaupalliset isot mallit kooltaan 20B+. Itellä tosiaan se 9B malli mutta Qwen 3.5 tarjoo myös muita versioita (esim 2b, 4b, ...) on siitä isompiakin jos koneessa höyryä riittää.

Mulla on RTX2080 8GB VRAM ja 32GB muistia niin tuo Qwenin "Think"-tila antaa välillä virhettä varsinkin pidemmissä prompteissa. Mutta ilman sitä päättelymoodia se toiminee ihan hyvin koodaustyössä. Tunnustan että en vielä ole ehtinyt Claude Codea laittamaan mutta se olisi seuraava steppi.

Mitä muita kokemuksia?

xanaki · 12.03.2026

Tossa kuva jossa LM Studion mallivalikkoa Qwenin osalta.

Itse pyöritän Linux Mintillä (22.3). Toki mallit ei ole aina päällä surisemassa vaan tarvittaessa.

edup · 12.03.2026

xanaki sanoi:
Tossa kuva jossa LM Studion mallivalikkoa Qwenin osalta.

Itse pyöritän Linux Mintillä (22.3). Toki mallit ei ole aina päällä surisemassa vaan tarvittaessa.

Täällä käytössä LM Studio + VSCode (Win+WSL2 Ubuntu) + OpenCode-laajennos. OpenCode on vähän hölmö oman LM Studio -integraationsa kanssa, ja esim. Cline osaa hakea saatavilla olevat mallit suoraan kun taas OpenCodella ne pitää itse määritellä configiin. Mutta Clinessa sitten taas on subagentit todella rajoittuneita, minkä takia vaihdoin OpenCodeen.

Qwen3.5 27B ollut viimeaikoina käytössä, ja on kyllä melko vakuuttava lokaaliksi malliksi. Kun säkin noita kvantisoituja malleja ajat, suosittelen unslothin tekemiä versioita joissa UD-tunniste.

Suosittelen myös asettamaan LM Studiossa batch sizea ylös, niin että kuitenkin pysyy GPUn VRAMin rajoissa kokonaismuistinkäyttö. Nopeuttaa aika reilusti inferenssiä. Lisäksi jokaiselle mallille kannattaa etsiä julkaisijan suositukset muille parametreille koodauskäyttöä varten. Ne voi erota oletusarvoista selvästi, ja usein esim. temperature pitää asettaa alemmas.

xanaki · 12.03.2026

edup sanoi:
Qwen3.5 27B ollut viimeaikoina käytössä, ja on kyllä melko vakuuttava lokaaliksi malliksi. Kun säkin noita kvantisoituja malleja ajat, suosittelen unslothin tekemiä versioita joissa UD-tunniste.

Suosittelen myös asettamaan LM Studiossa batch sizea ylös, niin että kuitenkin pysyy GPUn VRAMin rajoissa kokonaismuistinkäyttö. Nopeuttaa aika reilusti inferenssiä. Lisäksi jokaiselle mallille kannattaa etsiä julkaisijan suositukset muille parametreille koodauskäyttöä varten. Ne voi erota oletusarvoista selvästi, ja usein esim. temperature pitää asettaa alemmas.

Millasella raudalla hurruuttelet menemään jos 27B pyörii. Mulla tulee usein choke (failed) Think-moodi päällä tällä 9B mallilla. Mulla tosin on vaan 2080 8GB VRAM ja 32GB RAM... Pitää kattoo noita asetuksia, voihan se olla vika sielläkin.

edup · 12.03.2026

xanaki sanoi:
Millasella raudalla hurruuttelet menemään jos 27B pyörii. Mulla tulee usein choke (failed) Think-moodi päällä tällä 9B mallilla. Mulla tosin on vaan 2080 8GB VRAM ja 32GB RAM... Pitää kattoo noita asetuksia, voihan se olla vika sielläkin.

RTX 6000 Ada, 7965wx, 256 GB RAM. 8bit kvantisaatio mullakin silti tossa.

xanaki · 12.03.2026

edup sanoi:
RTX 6000 Ada, 7965wx, 256 GB RAM. 8bit kvantisaatio mullakin silti tossa.

No tollahan nyt jurnuttelee isompiakin settejä <3 Mä nitkutan 2080 8GB VRAM/32GB RAM yhdistelmällä relic prossan kanssa (i5-9400F).

Mutta kyllä tuo koodausavustimena ihan hyvin pelittää käyttämällä tuota 9B mallia ILMAN *think* moodia. Aika pystyvän oloinen värkki on hän.!

finWeazel · 15.03.2026

Yrittänyt käyttää sekä 5090:lla että 128GB macbook pro m4 max:lla lokaaleita koodiavustimia muistirajoitteiden puitteissa. Lokaalien tuottama laatu ja nopeus niin huono, että maksan pilvestä tällä hetkellä 200e/kk. Testaan suurinpiirtein kaikki uudet lokaalit llm:t koodaukseen sitä mukaa kun niitä tulee ulos, mutta joka kerta saanut pettyä versus pilvi. Oma aika ja hermot tärkeämpi kuin muutama kymppi tai satanen kuussa. Perus 20e/kk tilauskin kyykyttää lokaalit 100-0 mutta loppuu tokenit hyvin nopeasti jos tekee muuta kuin pieniä satunnaisia koodinpalasia/skriptejä. 128GB muistilla oleva nopea GPU maksaa niin paljon, että pilvi tuntuu ilmaiselta. Asiat menee niin nopeasti eteenpäin ettei nopea lokaalikone hauku hintaansa takaisin ja hidasta ei jaksa odotella, aika on rahaa.

tommmi · 17.03.2026

Täällä LM Studio myös käytössä ja aika pitkälti gpt-oss 20b malli M4 Pro Mac minissä. Myös satunnaisesti GLM 4.7 Flash ja Qwen3 Coder 30b.

Noista jostain syystä tuo Zai:n GLM vetää itsensä herkästi jojoon, mutta en ole jaksanut syvemmin selvittää miten sen parametreja pitäisi säätää, kun en ole sillä oikein saanut mitään tuntuvaa eroa aikaan gpt-oss:ään verrattuna.

jokumuu · 20.03.2026

Jos on käytössä RTX5000 sarjan ohjain kannattaa vaihtaa mallit MXFP4 tai NVFP4 kvantifioituihin malleihin. Tarkkuus ja nopeus paranevat huomattavasti.
esim. Qwen3-Coder-Next on merkittävästi vikkelämpi MXFP4 muodossa jopa verraten FP4:ään ja antaa mielestäni parempia vastauksia kuin jopa FP8.
Näitä malleja on ruvennut olemaan tarjolla ja ainakin MXFP4:ää tuetaan ihan kohtuu laajalti jo työkaluissa.

Perustuu yksinkertaistaen siihen, että liukuluvuista osa on monesti samaa lukua etenkin LLM tapauksissa ja tämä sama osuus tallennetaan blokkiin vain kertaalleen, jolloin tilaa säästyy ja laskentaakin tarvitsee tehdä vähemmän tarkkuuden kuitenkin säilyessä.

finWeazel · 20.03.2026

jokumuu sanoi:
Perustuu yksinkertaistaen siihen, että liukuluvuista osa on monesti samaa lukua etenkin LLM tapauksissa ja tämä sama osuus tallennetaan blokkiin vain kertaalleen, jolloin tilaa säästyy ja laskentaakin tarvitsee tehdä vähemmän tarkkuuden kuitenkin säilyessä.

Nvfp4 vielä parempi kuin mxfp4. Kaksitasanoinen blokkisyysteemi, enempi bittejä blokkien skaalaimissa ja pienemmät blockit.

jokumuu · 20.03.2026

finWeazel sanoi:
Nvfp4 vielä parempi kuin mxfp4. Kaksitasanoinen blokkisyysteemi, enempi bittejä blokkien skaalaimissa ja pienemmät blockit.

Ehdottomasti, mutta samalla käyttää hieman enemmän muistia ja on tueltaan rajoittuneempi (ikäänkuin joku käyttäisi jotain muuta kuin Nvidiaa). Lisäksi ainakin toistaiseksi työkalutuki on nihkeämpää ja malleja on tarjolla vähän. Mutta eiköhän nämäkin muutu paremmiksi jo viikoissa, kehitys on todella nopeaa.

Halpuuttaja · 20.03.2026

tommmi sanoi:
Täällä LM Studio myös käytössä ja aika pitkälti gpt-oss 20b malli M4 Pro Mac minissä. Myös satunnaisesti GLM 4.7 Flash ja Qwen3 Coder 30b.

Noista jostain syystä tuo Zai:n GLM vetää itsensä herkästi jojoon, mutta en ole jaksanut syvemmin selvittää miten sen parametreja pitäisi säätää, kun en ole sillä oikein saanut mitään tuntuvaa eroa aikaan gpt-oss:ään verrattuna.

Llama.cpp:n päädevaaja suositteli tolle GLM-4.7-Flashille non-thinking modea ja matalaa temperaturea:

Linkki: https://x.com/ggerganov/status/2016903216093417540

Claude Codessa tolla mallilla ja noilla asetuksilla pyöräyttelin yhteen yksinkertaiseen Gradioon perustuvaan web UI:hin pieniä muokkauksia eikä jäänyt looppimaan muistaakseni missään vaiheessa jos sitä tolla itsensä kiikkuun vetämisellä tarkoitit. Mutta hyvin rajatusti tuosta mulla kokemusta kyllä kaiken kaikkiaan.

finWeazel · 20.03.2026

jokumuu sanoi:
Ehdottomasti, mutta samalla käyttää hieman enemmän muistia ja on tueltaan rajoittuneempi (ikäänkuin joku käyttäisi jotain muuta kuin Nvidiaa). Lisäksi ainakin toistaiseksi työkalutuki on nihkeämpää ja malleja on tarjolla vähän. Mutta eiköhän nämäkin muutu paremmiksi jo viikoissa, kehitys on todella nopeaa.

Taitaa johtua siitä, että malli pitäisi alunalkaen optimoida käyttämään mxfp4/nvfp4 optimoituja palasia, ei kannata jälkikäteen lähteä valmista mallia "kvantisoimaan" tähän formaattiin. Ainakin nvidialta oli tulossa kevään aikana nvfp4:lla opetettuja malleja jotka myös ovat nvfp4 inferenssiin optimoituja. Blackwellia missä nvfp4 tuki ollut niin vähän aikaa konesalissa, että tuki varmaan sen vuoksi vielä vähäistä. Aikansa kestää siirtyä nvfp4:een kun kuitenkin pitää pre training myös optimoida nvfp4:een.

tommmi · 20.03.2026

Joo tuota justiin tarkoitin GLM:n kanssa, että jää lopulta toistamaan loputtomasti esimerkiksi yhtä sanaa.

Täytyykin kokeilla non-thinkingiä.

edup · 20.03.2026

tommmi sanoi:
Joo tuota justiin tarkoitin GLM:n kanssa, että jää lopulta toistamaan loputtomasti esimerkiksi yhtä sanaa.

Täytyykin kokeilla non-thinkingiä.

Sille voi antaa esim. --repeat-penalty 1.0 parametrina, niin pitäisi hillitä tuota.

polarbear62 · 22.03.2026

Latasin nyt itsekin Qwen3.5 ja kysyin että kuka hänet on tehnyt:

Who made me: I was created by Anthropic, the company behind the Claude series of large language models. Specifically, I'm part of the Claude 3 family - a next-generation AI designed to be smart, versatile, and helpful across many tasks.

Siellä on Kiinassa taas vähän innovoitu.

Mutta joo enivei malli on kyllä paikalliseksi malliksi ainakin alkutuntumiltaan yllättävän hyvä. Latasin vielä myöhemmin sensuroimattoman version joka ei kieltäydy mistään pyynnöistä: Reddit: Qwen3.5-35B-A3B Uncensored (Aggressive) — GGUF Release

Pitää kokeilla jossain vaiheessa kunnon koodaamista tuolla.

jkaart · 06.04.2026

Tullu tässä mielenkiinnosta pyöriteltyä tuota qwen3.5 9B UD mallia opencodessa ja kirjotellu sillä muutamia yksikkötestejä erääseen Next.js sovellukseen. Jälki on pääsäntösesti oikein hyvää ja testien kattavuus on jopa parempaa kuin mitä itsellä tulisi mieleen kirjotella, mutta tuo vaan tuppaa tekemään duplikaatti testejä joistakin (eri testi kuvaus mutta testin sisältö on 1:1 toisen testin kanssa) tai sitten kuvaukseen on kirjannu testattavat asiat ihan ok, mutta on unohtanu kirjottaa itse testiin näitä testavia asioita.

xanaki · 10.04.2026

Kyselen täältäkin kun en vielä ole vastausta saanut...

Gemma 4 julkaistiin hiljattain ja sitä sanotaan varsin päteväksi ja erittäin kilpailukykyiseksi malliksi. Varsinkin ja ainakin siinä mihin haluaisin sitä kokeilla, eli koodausavustimena tai koodausagentin paikallisesti pyörivänä LLM-mallina. Kymysys kuuluupi:

Onko tuosta Gemma 4:sta olemassa variantti joka mahtuisi kokonaan 8GB VRAMmiin. Konessa on 32GB RAM ja koska Linux niin myös zram on päällä soveliaasti aseteltuna...

Pistin liitteeksi kuvan muutamista LLMisrtä joita nyt olen testaillut esim. Clinen, Cursorin, Claude Coden ja OpenCoden kanssa nyt ainakin. Kaikissa on erisortin ongelmia aina jopa ihan agentin toiminnan hajoamiseksi kokonaan vaikkapa vastausten parseroinnin epäonnistumisen takia.
-mie ite

P.S. Taustastani sen verran että olen vanhan liiton partaleukainen ja harvahampainen kooderi joka aloitti koodailuharrastuksen pentuna joskus vuonna -82 ja olen käynyt sen pitkän kivisen linjan aina C64 Asm, Amiga Asm (680x0), C, C++, C# noin muutamia kieliä mainitakseni. Olen toiminut työelämässä tehden rakastamaani asiaa saaden siitä jopa jonkinsortin liksaakin, ainakin n. 25 vuotta, kaikissa softakehitysprojektin rooleissa. En siis ole tyypillinen vibe-kooderi vaan kranttu skeptikko vaikkakin jo pitkälti AI-myönteinen ja joka on todennut koodausagenttien pontentiaalin muutamilla testeillä. Myöskään en halua maksaa Anthropicin järkyttäviä kuukausi- tai API-maksuja....ainakaan tässä vaiheessa

Jumputin · 10.04.2026

xanaki sanoi:
Kyselen täältäkin kun en vielä ole vastausta saanut...

Gemma 4 julkaistiin hiljattain ja sitä sanotaan varsin päteväksi ja erittäin kilpailukykyiseksi malliksi. Varsinkin ja ainakin siinä mihin haluaisin sitä kokeilla, eli koodausavustimena tai koodausagentin paikallisesti pyörivänä LLM-mallina. Kymysys kuuluupi:

Onko tuosta Gemma 4:sta olemassa variantti joka mahtuisi kokonaan 8GB VRAMmiin. Konessa on 32GB RAM ja koska Linux niin myös zram on päällä soveliaasti aseteltuna...

Pistin liitteeksi kuvan muutamista LLMisrtä joita nyt olen testaillut esim. Clinen, Cursorin, Claude Coden ja OpenCoden kanssa nyt ainakin. Kaikissa on erisortin ongelmia aina jopa ihan agentin toiminnan hajoamiseksi kokonaan vaikkapa vastausten parseroinnin epäonnistumisen takia.
-mie ite

P.S. Taustastani sen verran että olen vanhan liiton partaleukainen ja harvahampainen kooderi joka aloitti koodailuharrastuksen pentuna joskus vuonna -82 ja olen käynyt sen pitkän kivisen linjan aina C64 Asm, Amiga Asm (680x0), C, C++, C# noin muutamia kieliä mainitakseni. Olen toiminut työelämässä tehden rakastamaani asiaa saaden siitä jopa jonkinsortin liksaakin, ainakin n. 25 vuotta, kaikissa softakehitysprojektin rooleissa. En siis ole tyypillinen vibe-kooderi vaan kranttu skeptikko vaikkakin jo pitkälti AI-myönteinen ja joka on todennut koodausagenttien pontentiaalin muutamilla testeillä. Myöskään en halua maksaa Anthropicin järkyttäviä kuukausi- tai API-maksuja....ainakaan tässä vaiheessa

Tuolta löytyy tietoa Gemma 4 malleista, eli vastauksena löytyy sopivia: Gemma 4 Hardware Requirements: RAM, VRAM, and Model Size Guide

]Your Hardware Recommended Model Notes
6–8 GB VRAM (GTX 1080, RTX 3070, entry laptops) E2B or E4B @ Q4 These run well on CPU+RAM too, just slower

Mutta noi pienet mallit koodiagentteina voivat olla turhan kyvyttömiä.

finWeazel · 10.04.2026

xanaki sanoi:
Onko tuosta Gemma 4:sta olemassa variantti joka mahtuisi kokonaan 8GB VRAMmiin. Konessa on 32GB RAM ja koska Linux niin myös zram on päällä soveliaasti aseteltuna...

Kuvan versio mahtunee 8GB kortin muistiin. Ei kannata ihmeitä odotella noin pieneltä mallilta,... Toi on tyylin 1000+ kertaa pienempi kuin parhaat mallit mitkä oikeasti ovat kyvykkäitä koodaamaan. Koolla on väliä.

edup · 10.04.2026

xanaki sanoi:
Kyselen täältäkin kun en vielä ole vastausta saanut...

Gemma 4 julkaistiin hiljattain ja sitä sanotaan varsin päteväksi ja erittäin kilpailukykyiseksi malliksi. Varsinkin ja ainakin siinä mihin haluaisin sitä kokeilla, eli koodausavustimena tai koodausagentin paikallisesti pyörivänä LLM-mallina. Kymysys kuuluupi:

Onko tuosta Gemma 4:sta olemassa variantti joka mahtuisi kokonaan 8GB VRAMmiin. Konessa on 32GB RAM ja koska Linux niin myös zram on päällä soveliaasti aseteltuna...

Pistin liitteeksi kuvan muutamista LLMisrtä joita nyt olen testaillut esim. Clinen, Cursorin, Claude Coden ja OpenCoden kanssa nyt ainakin. Kaikissa on erisortin ongelmia aina jopa ihan agentin toiminnan hajoamiseksi kokonaan vaikkapa vastausten parseroinnin epäonnistumisen takia.
-mie ite

P.S. Taustastani sen verran että olen vanhan liiton partaleukainen ja harvahampainen kooderi joka aloitti koodailuharrastuksen pentuna joskus vuonna -82 ja olen käynyt sen pitkän kivisen linjan aina C64 Asm, Amiga Asm (680x0), C, C++, C# noin muutamia kieliä mainitakseni. Olen toiminut työelämässä tehden rakastamaani asiaa saaden siitä jopa jonkinsortin liksaakin, ainakin n. 25 vuotta, kaikissa softakehitysprojektin rooleissa. En siis ole tyypillinen vibe-kooderi vaan kranttu skeptikko vaikkakin jo pitkälti AI-myönteinen ja joka on todennut koodausagenttien pontentiaalin muutamilla testeillä. Myöskään en halua maksaa Anthropicin järkyttäviä kuukausi- tai API-maksuja....ainakaan tässä vaiheessa

Kannattaa ekana heivata LM Studio mäkeen. Siinä on valitettavia ongelmia juuri sen kanssa miten LM Studio itse parsii agenttien työkalukutsujen ja aliagenttien viestejä, ja se voi hajottaa sen koko workflown. Oma suositus ykkösvaihtoehdoksi on vLLM, ja toiseksi Llama.cpp.

Suosittelisin kokeilemaan unslothin kvantisoituja versioita Qwen3.5 4B:stä tai 9B:stä. Ota niitä UD-versioita. Nää pyörii helpoiten todennäköisesti Llama.cpp:llä, koska vLLM:n GGUF-tuki on heikko/olematon.

xanaki · 10.04.2026

Jumputin sanoi:
Tuolta löytyy tietoa Gemma 4 malleista, eli vastauksena löytyy sopivia: Gemma 4 Hardware Requirements: RAM, VRAM, and Model Size Guide

Mutta noi pienet mallit koodiagentteina voivat olla turhan kyvyttömiä.

Loistavaa! Kiitos Jumputin! Miepä vilkaisen. Ois tarve saada toimimaan lokaalisti joku hyvä koodiassistentti kun ei nyt just ole varaa maksaa kalliita tilauksia tai API-maksuja esim Claudelle.

xanaki · 10.04.2026

edup sanoi:
Kannattaa ekana heivata LM Studio mäkeen. Siinä on valitettavia ongelmia juuri sen kanssa miten LM Studio itse parsii agenttien työkalukutsujen ja aliagenttien viestejä, ja se voi hajottaa sen koko workflown. Oma suositus ykkösvaihtoehdoksi on vLLM, ja toiseksi Llama.cpp.

Suosittelisin kokeilemaan unslothin kvantisoituja versioita Qwen3.5 4B:stä tai 9B:stä. Ota niitä UD-versioita. Nää pyörii helpoiten todennäköisesti Llama.cpp:llä, koska vLLM:n GGUF-tuki on heikko/olematon.

Jep, nää on mun ekoja kokeiluita lokaalin LLM:n kanssa eli en ole vaihtoehtoihin ehtinyt vielä tutustua. Tää oli eka käytettävä tämäntyylin LLM-manageri johon törmäsin ja siihen jumahdin. Mä testaan noita antamiasi vaihtoehtoja. LM Studiossa on kätevä se Model Finder jolla voi etsiä ja latailla eri saatavilla olevia malleja.

xanaki · 11.04.2026

finWeazel sanoi:
Kuvan versio mahtunee 8GB kortin muistiin. Ei kannata ihmeitä odotella noin pieneltä mallilta,... Toi on tyylin 1000+ kertaa pienempi kuin parhaat mallit mitkä oikeasti ovat kyvykkäitä koodaamaan. Koolla on väliä.

Joo siis en mä näillä pikkuisilla LLM-malleilla mitään superagenttia odotakaan saavani. Mutta haluaisin vaan sellaisen mallin joka toimii OpenCoden, Clinen tai Claude Coden kanssa ilman että jokin sun tekemistäsi pyynnöistä feilaa tylysti vaan virheeseen tyyliin "Response Parse Error" - eli tuossa on jo conflicti mallin antaman ja agentin odottaman vasteen muotoilun välillä. Tuo on nyt vaan yksi esimerkki mihin olen törmännyt.

Tai Claude Code lopettaa vaan tekemisen kesken promptin käsittelyn sanomatta mitään, se vaan pysähtyy ja odottaa seuraavaa komentoa.

Eli semmoisen pienemmän mallin joka toimisi jonkin noista kolmesta. Nuo kolme siksi että Cursor ei enää toimi täysin voimin paikalllisen LLM kanssa ja Continuessakin taisi olla jotain vastaavaa.

xanaki · 11.04.2026

edup sanoi:
Kannattaa ekana heivata LM Studio mäkeen. Siinä on valitettavia ongelmia juuri sen kanssa miten LM Studio itse parsii agenttien työkalukutsujen ja aliagenttien viestejä, ja se voi hajottaa sen koko workflown. Oma suositus ykkösvaihtoehdoksi on vLLM, ja toiseksi Llama.cpp.

Suosittelisin kokeilemaan unslothin kvantisoituja versioita Qwen3.5 4B:stä tai 9B:stä. Ota niitä UD-versioita. Nää pyörii helpoiten todennäköisesti Llama.cpp:llä, koska vLLM:n GGUF-tuki on heikko/olematon.

Luin tän viestin nyt ajatuksella uudestaan. Edellinen kerta meni kun oli pörrännyt valveilla puolitoista vuorokautta niin ei ehkä kaikki viestisi herkät hienoudet tartunu mun väsyneeseen aivolohkoon

Eli mä kokeilen nyt muuta hostia kuin LM Studio. Mulla oli aiemmin käytössä juurikin QWenin 3.5 9B siitä muistaakseni joku Claude Opus optimoitu versio, en tarkkaa nimeä muista mutta tarkistan. ENkä nyt saa päähäni mikä agentti oli kokeilussa mutta tuli juuri noita parse erroreita kun LM Studio pyöritti malleja.

"Kastaanpas tämä kaikkialle levinnyt paska kasaan ja aloitetaan alusta" - sanoi maajussi kun dynamiitilla puuceensä räjäytti...

edup · 11.04.2026

xanaki sanoi:
Luin tän viestin nyt ajatuksella uudestaan. Edellinen kerta meni kun oli pörrännyt valveilla puolitoista vuorokautta niin ei ehkä kaikki viestisi herkät hienoudet tartunu mun väsyneeseen aivolohkoon

Eli mä kokeilen nyt muuta hostia kuin LM Studio. Mulla oli aiemmin käytössä juurikin QWenin 3.5 9B siitä muistaakseni joku Claude Opus optimoitu versio, en tarkkaa nimeä muista mutta tarkistan. ENkä nyt saa päähäni mikä agentti oli kokeilussa mutta tuli juuri noita parse erroreita kun LM Studio pyöritti malleja.

"Kastaanpas tämä kaikkialle levinnyt paska kasaan ja aloitetaan alusta" - sanoi maajussi kun dynamiitilla puuceensä räjäytti...

Mun mielestä sun ei kannata mitään Claude distillattuja malleja alkaa käyttää kun noin pienet mallit kyseessä. Todennäköisemmin laatu koodauksessa parempi kun käytät ihan perusversioita malleista, kun ei ne niitä Clauden kykyjä oikeasti saa, ja saattaa vain sekoittaa jo olemassaolevia koodaus"taitoja".

Matt Damon · 13.04.2026

Kyselen täältäkin kun en vielä ole vastausta saanut...

Onko tuosta Gemma 4:sta olemassa variantti joka mahtuisi kokonaan 8GB VRAMmiin. Konessa on 32GB RAM ja koska Linux niin myös zram on päällä soveliaasti aseteltuna...

Llama.cpp osaa cpu offloading, joten mixture of expert mallit pyörii aika hyvällä nopeudella osittain vram+ram. Malli vaikka Google_gemma-4-26B-A4B-it-GGUF.

./llama-server --device CUDA0 -fit on -t 4 -tb 4 -fitc 32000 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --mlock --host 0.0.0.0 --port 9999 --no-mmap --chat-template-file ../../models/templates/gemma4.jinja --jinja -m ~/Downloads/google_gemma-4-26B-A4B-it-Q4_K_M.gguf
Toi tekee openai yhteensopivan http://localhost:9999/v1, johon voi osoittaa vaikka vscoden koodiavustimen. --host 0.0.0.0 antaa näkyä lanissa muille koneille. Hostissa täytyy sallia toi portti 9999, jotta lanin kautta voi yhditsää.

###un foorumi tekee tosta localhostista linkin väkisin. En jaksa. Sori siitä.

mailbag · 17.04.2026

Nyt tullut ajeltua tuota uutta qwen 3.6 llama.cpp + vscode + cline tällaisella komennolla

/home/benii/llama.cpp/build/bin/llama-server \
-m /home/benii/llama.cpp/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_P.gguf \
--host 0.0.0.0 \
--port 8099 \
--api-key 1234 \
--alias qwen \
-c 256000 \
-np 1 \
--n-gpu-layers 999 \
-b 4096 \
--flash-attn on \
-ctk q8_0 -ctv q8_0 \
--jinja \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 0.0 \
--repeat-penalty 1.0 \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on \
--chat-template-kwargs '{"enable_thinking": true}' \
--reasoning-budget 4096 \
--reasoning-budget-message "Proceed to final answer."

Olen kyllä erittäin yllättynyt tästä mallista ja combosta, täys 256k contextia mahtuu 200 tok/sec 5090 VRAM:iin. Olen tehnyt korjauksia ja muutoksia omiin ohjelmiini ja rakentanut testi web appeja, tekee täysin toimivia hienoja moderneja appeja muutamassa sekunnissa ilman ongelmia, cline hoitaa kaiken agenttipyörityksen hienosti suoraan boksista.

Tää on omalla kohdalla ensimmäinen kerta kun tämmöinen pieni paikallinen yhden GPUn malli pystyy tekemään mitään tähän verrattavaa.

Mä uskoisin että tämä on about samaa tasoa kuin noiden isojen toimittajien flash/mini ja vastaavat mallit joita joutuu käyttämään jos parhaasta mallista loppuu tokenit kesken eli pystyy jatkamaan hommia kunhan ei niitä kaikkein monimutkaisimpia juttuja tee.

edup · 18.04.2026

mailbag sanoi:
Nyt tullut ajeltua tuota uutta qwen 3.6 llama.cpp + vscode + cline tällaisella komennolla

/home/benii/llama.cpp/build/bin/llama-server \
-m /home/benii/llama.cpp/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_P.gguf \
--host 0.0.0.0 \
--port 8099 \
--api-key 1234 \
--alias qwen \
-c 256000 \
-np 1 \
--n-gpu-layers 999 \
-b 4096 \
--flash-attn on \
-ctk q8_0 -ctv q8_0 \
--jinja \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 0.0 \
--repeat-penalty 1.0 \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on \
--chat-template-kwargs '{"enable_thinking": true}' \
--reasoning-budget 4096 \
--reasoning-budget-message "Proceed to final answer."

Olen kyllä erittäin yllättynyt tästä mallista ja combosta, täys 256k contextia mahtuu 200 tok/sec 5090 VRAM:iin. Olen tehnyt korjauksia ja muutoksia omiin ohjelmiini ja rakentanut testi web appeja, tekee täysin toimivia hienoja moderneja appeja muutamassa sekunnissa ilman ongelmia, cline hoitaa kaiken agenttipyörityksen hienosti suoraan boksista.

Tää on omalla kohdalla ensimmäinen kerta kun tämmöinen pieni paikallinen yhden GPUn malli pystyy tekemään mitään tähän verrattavaa.

Mä uskoisin että tämä on about samaa tasoa kuin noiden isojen toimittajien flash/mini ja vastaavat mallit joita joutuu käyttämään jos parhaasta mallista loppuu tokenit kesken eli pystyy jatkamaan hommia kunhan ei niitä kaikkein monimutkaisimpia juttuja tee.

Tuli itsekin testattua Qwen3.6 eilen nopeasti. Oma setuppi nykyään VSCode + OpenCode + Docker Model Runner.

OpenCode voittaa omassa käytössä Clinen koska osaa käyttää aliagentteja, jolloin pääagentin konteksti täyttyy merkittävästi hitaammin.

Ja Docker Model Runner kaikessa yksinkertaisuudessaan yllätti sillä että se vaan toimii. Vaikka käyttää sisäisesti llama.cpp tai vLLM, niin tekevät selvästi jotain omia patcheja päälle koska etenkin uudemmat mallit mitkä ei vielä esim. Llama.cpp:n omilla imageilla toimi, toimii DMR:llä suoraan. DMR:n huono puoli on rajoitettu konffattavuus, mutta niin kauan kun uudetkin mallit toimii suorilta ilman säätöä, voi sen antaa anteeksi.

Tuo Qwen3.6 on kyllä nopea ja pärjäsi ainakin yksinkertaisista jutuista hyvin. Jostain syystä kuitenkin täyttää kontekstia todella paljon nopeammin kuin Gemma 4, veikkaan että sisäiseen ajatusprosessiin kuluu tokeneita Qwenillä enemmän.

JeanS · 18.04.2026

Aloitin lokaali AI testailut Ubuntu ja Windows koneilla.
Mulla on ongelma Ubuntu 25.10 koneessa (AMD 5950x + Radeon 6900XT) -> VSCode kaatuu käynnistyessä code 133:on. Kaikki Ubuntu päivityksen on tehty, sekä AMD GPU ajurit asennettu.
VSCode on asennettu App Centerin kautta. LM Studio ja PyCharm toimivat normaalisti. PyCharm AI Pro hinta on turhan korkea. Olisiko Cursor paras vaihtoehto jos en saa VSCodea toimimaan?

Onko kukaan muu törmännyt tähän ongelmaan?

Jumputin · 18.04.2026

JeanS sanoi:
Aloitin lokaali AI testailut Ubuntu ja Windows koneilla.
Mulla on ongelma Ubuntu 25.10 koneessa (AMD 5950x + Radeon 6900XT) -> VSCode kaatuu käynnistyessä code 133:on. Kaikki Ubuntu päivityksen on tehty, sekä AMD GPU ajurit asennettu.
VSCode on asennettu App Centerin kautta. LM Studio ja PyCharm toimivat normaalisti. PyCharm AI Pro hinta on turhan korkea. Olisiko Cursor paras vaihtoehto jos en saa VSCodea toimimaan?

Onko kukaan muu törmännyt tähän ongelmaan?

Poista VSCode asennus ja kokeile Microsoftin virallista pakettia tai repoa.

Halpuuttaja · 18.04.2026

edup sanoi:
Tuo Qwen3.6 on kyllä nopea ja pärjäsi ainakin yksinkertaisista jutuista hyvin. Jostain syystä kuitenkin täyttää kontekstia todella paljon nopeammin kuin Gemma 4, veikkaan että sisäiseen ajatusprosessiin kuluu tokeneita Qwenillä enemmän.

Qwen 3.6:n model cardissa kerrotaan että reasoning contentin säästäminen aiemmilta vuoroilta voi vähentää tokenien kulutusta:

If you are using APIs from Alibaba Cloud Model Studio, in addition to changing model, please use "preserve_thinking": True instead of "chat_template_kwargs": {"preserve_thinking": False}.

This capability is particularly beneficial for agent scenarios, where maintaining full reasoning context can enhance decision consistency and, in many cases, reduce overall token consumption by minimizing redundant reasoning. Additionally, it can improve KV cache utilization, optimizing inference efficiency in both thinking and non-thinking modes.

Puhuvat tossa Alibaba cloudista, mutta toi flagi toimii myös llama.cpp:ssä:

--chat-template-kwargs '{"preserve_thinking": true}'

Tai windowsissa:

--chat-template-kwargs "{\"preserve_thinking\":true}"

polarbear62 · 18.04.2026

mailbag sanoi:
Nyt tullut ajeltua tuota uutta qwen 3.6 llama.cpp + vscode + cline tällaisella komennolla

/home/benii/llama.cpp/build/bin/llama-server \
-m /home/benii/llama.cpp/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_P.gguf \
--host 0.0.0.0 \
--port 8099 \
--api-key 1234 \
--alias qwen \
-c 256000 \
-np 1 \
--n-gpu-layers 999 \
-b 4096 \
--flash-attn on \
-ctk q8_0 -ctv q8_0 \
--jinja \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 0.0 \
--repeat-penalty 1.0 \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on \
--chat-template-kwargs '{"enable_thinking": true}' \
--reasoning-budget 4096 \
--reasoning-budget-message "Proceed to final answer."

Olen kyllä erittäin yllättynyt tästä mallista ja combosta, täys 256k contextia mahtuu 200 tok/sec 5090 VRAM:iin. Olen tehnyt korjauksia ja muutoksia omiin ohjelmiini ja rakentanut testi web appeja, tekee täysin toimivia hienoja moderneja appeja muutamassa sekunnissa ilman ongelmia, cline hoitaa kaiken agenttipyörityksen hienosti suoraan boksista.

Tää on omalla kohdalla ensimmäinen kerta kun tämmöinen pieni paikallinen yhden GPUn malli pystyy tekemään mitään tähän verrattavaa.

Mä uskoisin että tämä on about samaa tasoa kuin noiden isojen toimittajien flash/mini ja vastaavat mallit joita joutuu käyttämään jos parhaasta mallista loppuu tokenit kesken eli pystyy jatkamaan hommia kunhan ei niitä kaikkein monimutkaisimpia juttuja tee.

Aikaisemmin kun ajelin Qwen3.5-27b ja Qwen 3.5 35b-a3b malleja niin täytyy sanoa että olivat jo siinä vaiheessa aivan helvetin hyviä. Joo eivät vastaa jotain pilvessä rullaavaa mallia 1:1 mutta asiat pitää nyt suhteuttaa ja suhteutettuna nuo on aivan älyttömän hyviä. Ihan jo 16GB VRAM ja 96GB RAM pöytäkoneella pystyy aivan täysin koodaamaan esim. moderneja mobiilisovelluksia jos niitä osaa käyttää oikein.

Näiden paikallisten mallien kohdalla pitää välillä tehdä useampi iteraatio samasta käskystä, tarkastaa tehty lopputulos huolellisemmin kuin esim. pilvi-claudella ja sitten varsinkin olla tarkkana promptien kanssa. Orkestraattorit, koodausagentit ja niiden valinta ja konffaaminen merkitsee myös todella paljon. Myös välillä ole aloitettava uusi keskustelu uudella aiheella jos edellisessä on jo konteksti tukossa. Paikallisesti ajo ei ole yhtä suoraviivaista kuin pilvimallien kanssa mutta eipä lopu tokenit kesken ja saa samalla 100% vapauden ja yksityisyyden.

Pitää varmaan yrittää napata tuleva M5 Mac Mini ellei niitä viedä heti käsistä.

finWeazel · 18.04.2026

JeanS sanoi:
Aloitin lokaali AI testailut Ubuntu ja Windows koneilla.
Mulla on ongelma Ubuntu 25.10 koneessa (AMD 5950x + Radeon 6900XT) -> VSCode kaatuu käynnistyessä code 133:on. Kaikki Ubuntu päivityksen on tehty, sekä AMD GPU ajurit asennettu.
VSCode on asennettu App Centerin kautta. LM Studio ja PyCharm toimivat normaalisti. PyCharm AI Pro hinta on turhan korkea. Olisiko Cursor paras vaihtoehto jos en saa VSCodea toimimaan?

Onko kukaan muu törmännyt tähän ongelmaan?

Cursor on forkattu vscode. Jos siellä on joku juurisyy miksi vscode ei toimi niin voi hyvin olla, että cursor törmää ihan samaan ongelmaan. Googletus antaisi olettaa, että joku gpu kiihdytykseen liittyvä asia mikä voi hyvinkin tapahtua kaikissa vscode forkeissa. Vois kokeilla käynnistää vscode parametrilla: --disable-gpu

Error code 133 on Linux typically indicates that the VS Code process (often the Electron-based renderer) has crashed due to a SIGTRAP or a memory-related fault. This is frequently linked to GPU hardware acceleration issues, corrupted cache files, or incompatibilities with specific Linux kernel features (like the unprivileged user namespace restrictions in newer distributions).

I'maRobot · 18.04.2026

Tämä local AI on erittäin hyvä ketju. Himoittaisi suuresti laittaa nimenomaan paikallinen viritys AI:sta. Sellainen jossa softa ei aiheuta kustannuksia. Alkaa kyllästyttämään nämä netin maksuttomien rajoitukset.

Sellainen AI-paketti joka olisi koodaukseen, ja sitten sama tai rinnakkainen toinen joka olisi yleisesti "kaikkeen muuhun". Ongelma on minulle se että netistä kun ohjeita etsii niin mielipiteitä on todella paljon ja sitten asennustapoja ja paketteja vielä enemmän. Olisiko kellään empiiristä kokemusta sellaisista ohjeista ja/tai sivustosta jossa asennetaan alusta pitäen em. systeemit koneeseen parhaalla mahdollisella tavalla.

Reunaehtoina on rauta johon laitetaan, eli minisforumin pikkurautaan olisi tarkoitus laittaa / MS-A2. Siinä on 7945hx prossu, 128Gb DDR5 5600 RAM, 2x4Tb nvme4, nVidia 3050 6Gb erillinen näytönohjain sisällä. Ja toki sitten ne 2x10G SFP+ sun muut mitä pakettiin kuuluu normina.

Käyttiksenä on proxmox ja tarkoitus olisi laittaa virtuaalikoneeseen joku linux (Ehkä uusin 26.04 kubuntu) ja sinne kaikki AI-roina. Tuossa purkissa on pari muuta VM:tta mutta ne vie muistia vain max. luokkaa 12Gb yhteensä eli käytettävissä on vapaana 100Gb+ muistitilaa keskusmuistissa. Vierastan dockereita ja muita konttiratkaisuja joten mieluiten siis ihan puhtaana virtuaalikoneena jota on helppo sitten vaikka siirtää klusterin sisällä pakettina ja varmuuskopioida jne.

Nopeus ei ole tässä se juttu eli jos nyt hetken pidempään kone miettii niin ei ole väliä. Kumpikaan ei tule varsinaisesti tuotantokäyttöön. Vain omaan satunnaiseen koodaukseen ja harjoitteluun. Kuitenkin niin että tulokset olisi niin pureksittuja ja hyviä kuin noilla resursseilla on mahdollista. Mielellään siis sellainen ratkaisu jossa tuo 6GB VRAM ei ole rajoite vaan käytetään myös tuo 100GB RAM ja 8TB SSD:ta hyväksi maksimaalisesti mallien tuloksien parantamiseen. Jos RAM on hitaampi vastaamaan niin ei haittaa. Vastauksen laatu on paljon tärkeämpi kuin vastauksen nopeus. Rauta voidaan sitten klusterin sisällä vaihtaa järeämpään jos alkaa aika maksaa liikaa.

Sitten ehkä mahdollisesti myöhemmin tulevaisuudessa tuo yleinen "kaikki muu"-malli tulisi firmaan sisäiseen koekäyttöön jolla avustetaan -ehkä- esim. joitain artikkeleita sisäisiin julkaisuihin tms. peruskäyttöä jossa avustetaan käyttää kaikenlaisesta. Tämä yleinen malli pitäisi ymmärtää ja luoda suomeksi. Eikä tule asiakaspalvelurajapintaan vaan työntekijöiden "tyhmien kysymyksien" avittamiseen. Malleja ei opeteta missään vaiheessa vaan käytetään sellaisenaan. Jos mallista tulee hyvin toimiva firman käytössä ja oikeasti auttava niin sitten ehkä opetetaan juristeja varten ennakkotapausten pureksintaa yms. ja ingenjööreille jotain tilastomatemaattista pureksittavaa tms. Firma-mallissa GUI pitää olla helppo eli missä tavallinen taapertaja syöttää yhteen kenttään lätinänsä ja sitten kone vastaa toisella lätinällä. Ei siis mitään konehuoneeseen viittaavaakaan loppukäyttäjälle.

Molemmat virtuaalit ei ole samaan aikaan ajossa eli resursseja ei tarvitse jakaa kahden AI-virtuaalin kanssa. Koodaus ja yleinen on eri aikaan päällä ja voidaan proxmoxista sitten tarvittaessa käynnistellä. Ja toisaalta, näitä purkkeja on useampi klusterissa joten tarvittaessa kyllä löytyy resursseja paljon lisää jos tarvitsee ajaa molempia yhtäaikaa.

Mitä suosittelisitte? Mistä perustelliset ohjeet state-of-the-art systeemille ja mikä olisi paras tapa ratkaista ym. ongelma. Lisäksi, jos jollain on aiheesta innostusta auttaa niin PM ja rupatellaan lisää.

mailbag · 18.04.2026

Noissa virtuaalikoneissa voi tulla vähän ongelmia tehojen ja gpu-passthrough juttujen kanssa tai ainakin vaatii lisäsäätöä sitten. Ehkä joku llama.cpp asennus ja ajo suoraan raudalle ja sitten agentti ja muut automaatiot pyörii siinä virtuaalikoneessa varmaan toimis hyvin ja olis portable.

Itse olen kaiken jo pitkään asentanut ihan karusti niin että kerään tiedot systeemistäni ja tarkoituksesta, syötän ne chat gpt:lle/geminille ja sitten saan suoraan toimivat ohjeet ja komennot millä aina toimii.

JeanS · 18.04.2026

Jumputin sanoi:
Poista VSCode asennus ja kokeile Microsoftin virallista pakettia tai repoa.

Tämä auttoi, eli latasin deb paketin suoraan Microsoftin sivuilta.

polarbear62 · 19.04.2026

I'maRobot sanoi:
Tämä local AI on erittäin hyvä ketju. Himoittaisi suuresti laittaa nimenomaan paikallinen viritys AI:sta. Sellainen jossa softa ei aiheuta kustannuksia. Alkaa kyllästyttämään nämä netin maksuttomien rajoitukset.

Todellisuus myös on se että nämä Claudet ja ChatGPT:t on itseasiassa todella agressiivisesti subventoituja palveluita. Vaikka maksaisit jotain superuser tier 200e/kk hintalappua niin se todellinen poltettu kuluerä on silti 10-25 kertainen. Mallit toki kehittyy, mutta silti tämä nykyinen tulevaisuus missä firmat ostaa nykyisillä hintalapuilla ja rajoitteilla koko henkilökunnalleen lisenssejä ei tule olemaan todellisuutta vaan näiden AI firmojen on tarkoitus saada mahdollisimman moni riipuvaiseksi heidän palveluistaan ja sitten lopulta vetää matto alta.

Jos ajat itse omaa malliasi koti hardwarella niin mikään ei tule muuttumaan.

I'maRobot · 20.04.2026

mailbag sanoi:
Noissa virtuaalikoneissa voi tulla vähän ongelmia tehojen ja gpu-passthrough juttujen kanssa tai ainakin vaatii lisäsäätöä sitten. Ehkä joku llama.cpp asennus ja ajo suoraan raudalle ja sitten agentti ja muut automaatiot pyörii siinä virtuaalikoneessa varmaan toimis hyvin ja olis portable.

Itse olen kaiken jo pitkään asentanut ihan karusti niin että kerään tiedot systeemistäni ja tarkoituksesta, syötän ne chat gpt:lle/geminille ja sitten saan suoraan toimivat ohjeet ja komennot millä aina toimii.

No nyt on sitten proxmox+kubuntu+nvidia3050 passthru comboon asennettu ja muutama tunti testattu llama.cpp + gwen36 ja pari muuta mallia. Kun kokeilin ensin saada ohjeita näin gpt/gemini/claude linjalta niin ohjeet oli vajaat ja sekavat ja johti umpikujiin ja virhetilanteisiin. Mutta kun netistä aikansa tonki sivustoja niin sitten löytyi selkeät suuntaviitat joilla lähti heti pelittämään. Eikä ollut edes ongelmallista. Toki tuo nvidian passthru oli jo aikaisemmin käytössä toisessa VM:ssä joten itse proxmoxin virittelyä ei tarvittu ollenkaan.

Täytyy sanoa että laadukasta jälkeä tekee kun kysyy kaikkea maan ja taivaan väliltä. Jopa hieman kompleksisempiakin asioita ja moniulotteisia ja moniselitteisiä kun kysyi niin vastaukset oli luontevia ja käyttökelpoisia jopa sellaisenaan. Siis tällä pienellä sikarilaatikolla ja kuitenkin kohtuullisella kokoonpanolla saadaan kohtuullisessa ajassa.

Matemaattisiin ongelmiin antaa oikeat vastaukset ja artikkelit, esitelmät ja briiffaukset tulee ihan hyvinä mitä hulluimmista aiheista. Ja toisaalta ei tuo sikariloota nyt ihan tolkuttomia mieti näillä resursseilla, siis luokkaa 30s - 5min tulee tarvittavat lätinät aiheesta kuin aiheesta. Tuo että tekstipohjaiset matemaattiset ongelmat myös ratkeaa, oikeilla vastauksilla, kuten odotusarvot, todennäköisyydet, interpolointi ja muut tilastomatemaattiset ongelmat on kyllä ... jopa hämmästyttävää. Siis paikallisena asennuksena parissa minuutissa. Ja laskentakaavat tulee mukana.

Seuraavana sitten koodipuolen kilkkeiden harjoittelua. Ja sitten vielä jotain kuvanluontia tms. jos innostusta vielä riittää. Onko ideoita?

polarbear62 sanoi:
Todellisuus myös on se että nämä Claudet ja ChatGPT:t on itseasiassa todella agressiivisesti subventoituja palveluita. Vaikka maksaisit jotain superuser tier 200e/kk hintalappua niin se todellinen poltettu kuluerä on silti 10-25 kertainen. Mallit toki kehittyy, mutta silti tämä nykyinen tulevaisuus missä firmat ostaa nykyisillä hintalapuilla ja rajoitteilla koko henkilökunnalleen lisenssejä ei tule olemaan todellisuutta vaan näiden AI firmojen on tarkoitus saada mahdollisimman moni riipuvaiseksi heidän palveluistaan ja sitten lopulta vetää matto alta.

Jos ajat itse omaa malliasi koti hardwarella niin mikään ei tule muuttumaan.

Juuri näin. Opportunistit kapitalistit työntää rahojaan ja veikkaa voittavaa hevosta.

Siis jos ja kun nämä paikalliset on jo tänäpäivänä tämän tasoisia niin mitä ne on vuoden parin päästä !!?! Joka tarkoittaa sitä että pilviratkaisujen tarve pienenee tai rajoittuu hardcore- ja heavyusereiden temmellyskentäksi. Ja se taas tarkoittaa sitä että potentiaalinen maksajamäärä pienenee hyvin pieneksi joukoksi jolta täytyisi nämä valtavat globaalit infra-investoinnit saada takaisin ja sijoitetulle pääomalle vielä korkoa ennenkuin vanhenee datakeskusrauta käsiin. Kun pudotuspeli alkaa siitä tulee raaka.

Mutta, tämä että lokaalit on jo tämän tasoisia tarkoittaa myös sitä että paikallisten asennusten määrä tulee lähivuosina räjähtämään. Joka tarkoittaa sitä että muistien tarve kasvaa consumer/prosumer/SMB-luokassa räjähdysmäisesti kun näitä isompia malleja aletaan urakalla asentelemaan. Ei taida olla 5+ vuoden sisällä toivoakaan että muistien hinnat (€/GB) tulisi radikaalisti laskemaan.

mailbag · keskiviikkona klo 16:43

Qwen/Qwen3.6-27B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Qwen 3.6 27b dense just julkaistu, en ole vielä päässyt kokeilemaan mutta pitäisi olla todella kova koodaukseen paikallisesti kerta 35b moe oli jo ja tämä on reilusti parempi siitä.

Matt Damon · keskiviikkona klo 17:37

Noi jenkkien miiiiiljardibiljardi sijoitukset ja investoinnit vs kiinan open source.

:speak:

finWeazel · keskiviikkona klo 17:47

Matt Damon sanoi:
Noi jenkkien miiiiiljardibiljardi sijoitukset ja investoinnit vs kiinan open source.

Benchmarkkinumerot ei kerro totuutta toimivuudesta, ei edes lähelle.

Matt Damon · keskiviikkona klo 18:03

finWeazel sanoi:
Benchmarkkinumerot ei kerro totuutta toimivuudesta, ei edes lähelle.

Onhan noi benchmaxattu, myös claude ja chatgpt jne. Mutta toi qwen3.6-35B moe tekee agenttijuttuja todella ketterästi, jos ympäristö on kunnollinen.

mailbag · keskiviikkona klo 18:08

Matt Damon sanoi:
Onhan noi benchmaxattu, myös claude ja chatgpt jne. Mutta toi qwen3.6-35B moe tekee agenttijuttuja todella ketterästi, jos ympäristö on kunnollinen.

Joo nää paikalliset pikkumallit on kyllä kehittynyt melkoisesti viime kuukausina, ei voi edes verrata vanhoihin open source malleihin, laittaa johonkin agentti IDE pyörimään niin tulee ihan samanlainen fiilis kuin käyttäisi jotain isoa mallia. Näissä laatu on ehkä 6+kk jäljessä nykyisistä claude/gpt SOTA mallista mutta silti aika villiä että voi jollain läppärillä pyörittää. En olisi viime syksynä edes voinut ajatella että kohta on mahdollista.

edup · keskiviikkona klo 18:19

Matt Damon sanoi:
Onhan noi benchmaxattu, myös claude ja chatgpt jne. Mutta toi qwen3.6-35B moe tekee agenttijuttuja todella ketterästi, jos ympäristö on kunnollinen.

Näin tekee, mutta käyttää tosiaan ajatteluun hirmuisen määrän tokeneita ja jää melko usein pyörimään kehää omien päätelmiensä kanssa niin että täytyy keskeyttää ja tönäistä oikeaan suuntaan. Kaiken lisäksi se itse huomaa pyörivänsä kehää ja päättää lopettaa, mutta sitten jatkaa vaan samaa. Usein olisi kyllä jo keksinyt ratkaisun, mutta sitten jatkaakin sen jälkeen jotain jossittelua ja päätyy kehään.

Mielenkiinnolla odotan miten tiheä malli pärjää oikeasti.

Jumputin · keskiviikkona klo 18:21

On noita qwenin eri versioita tullut pyöriteltyä 5090 muistissa ja ovat kyllä olleet tehokkaita ja nopeita eri tehtävissä. Gemmaa sitten kun tarvitaan enemmän "kielellistä" kyvykkyyttä.

finWeazel · keskiviikkona klo 18:30

mailbag sanoi:
Joo nää paikalliset pikkumallit on kyllä kehittynyt melkoisesti viime kuukausina, ei voi edes verrata vanhoihin open source malleihin, laittaa johonkin agentti IDE pyörimään niin tulee ihan samanlainen fiilis kuin käyttäisi jotain isoa mallia. Näissä laatu on ehkä 6+kk jäljessä nykyisistä claude/gpt SOTA mallista mutta silti aika villiä että voi jollain läppärillä pyörittää. En olisi viime syksynä edes voinut ajatella että kohta on mahdollista.

Ehkä ennemmin 1 vuosi perässä ja kovat rajoitteet muistinmääristä ja laskentanopeudesta jos aikoo isompia projekteja pyöritellä. Uusi anthropic malli huonompi kuin vanhempi anthropic 2kk takaa. Oletettavasti konesalikapasiteettia puuttuu niin ruuvanneet asetukset anthropicin päässä idioottimoodiin missä 4.6 ja 4.7 mallit heittelevät arvauksia ilman ajattelua. Vaikka pakottaa ajattelemaan asetuksia ruuvaamalla niin ajattelee vähemmän kuin ennen. OpenAI:lta tulossa uusi malli, mutta saa nähdä tuleeko heitäkin vaivaamaan sama kuin anthropic:ia ja tarjotaan vain lobotomia-versiota asiakkaille versus mikä olisi mahdollista.

mailbag · keskiviikkona klo 18:40

finWeazel sanoi:
Ehkä ennemmin 1 vuosi perässä ja kovat rajoitteet muistinmääristä ja laskentanopeudesta jos aikoo isompia projekteja pyöritellä. Uusi anthropic malli huonompi kuin vanhempi anthropic 2kk takaa. Oletettavasti konesalikapasiteettia puuttuu niin ruuvanneet asetukset anthropicin päässä idioottimoodiin missä 4.6 ja 4.7 mallit heittelevät arvauksia ilman ajattelua. Vaikka pakottaa ajattelemaan asetuksia ruuvaamalla niin ajattelee vähemmän kuin ennen. OpenAI:lta tulossa uusi malli, mutta saa nähdä tuleeko heitäkin vaivaamaan sama kuin anthropic:ia ja tarjotaan vain lobotomia-versiota asiakkaille versus mikä olisi mahdollista.

Nykyään saa täydet 256k contextia näillä paikallisilla malleilla tosi helposti joka on samaa luokkaa kuin noissa isoissa malleissa oli hetki sitten. Vuos sitten mallit oli sonnet 3.5 ja gpt4 jotka on todella paljon huonompia kuin nämä uudet qwenit että kyllä mä sanoisin että alle vuosi on tuo ero omasta mielestä.

finWeazel · keskiviikkona klo 18:43

mailbag sanoi:
Nykyään saa täydet 256k contextia näillä paikallisilla malleilla tosi helposti joka on samaa luokkaa kuin noissa isoissa malleissa oli hetki sitten. Vuos sitten mallit oli sonnet 3.5 ja gpt4 jotka on todella paljon huonompia kuin nämä uudet qwenit että kyllä mä sanoisin että alle vuosi on tuo ero omasta mielestä.

Nuo mitä nyt saa tavis käyttöön pilvestä ei ole kovinta mitä oikeasti on olemassa. Esim. mythos tarjolla vain harvoille, Anthropicin 4.7 ja 4.6 versiot huonommat kuin 4.6 helmikuussa johtuen lobotomisoinnista. Joutui oman anthropic tilauksenkin perumaan kun 4.6 hajosi eikä 4.7 ole korjannut tilannetta. OpenAi:n uusin mikä tulossa näillä näppäimillä ei ole sekään tarjolla taviksille vaikka on jo pilottiasiakkailla käytössä(spud). Anthropicin lobotomian selittänee parametrit millä malleja ajetaan että saataisiin konesalikapasiteetti riittämään.

edup · keskiviikkona klo 18:52

finWeazel sanoi:
Nuo mitä nyt saa tavis käyttöön pilvestä ei ole kovinta mitä oikeasti on olemassa. Esim. mythos tarjolla vain harvoille, Anthropicin 4.7 ja 4.6 versiot huonommat kuin 4.6 helmikuussa johtuen lobotomisoinnista. Joutui oman anthropic tilauksenkin perumaan kun 4.6 hajosi eikä 4.7 ole korjannut tilannetta. OpenAi:n uusin mikä tulossa näillä näppäimillä ei ole sekään tarjolla taviksille vaikka on jo pilottiasiakkailla käytössä(spud). Anthropicin lobotomian selittänee parametrit millä malleja ajetaan että saataisiin konesalikapasiteetti riittämään.

En tiedä miten relevantteja Mythokset yms. nyt sitten on, kun niitä kyetään tarjoamaan hyvin harvoille, todennäköisesti NDA:n alla niin että mitään testejä ei saa julkaista, ja niitä ei tosiaan käytännössä saa käyttöön jos ei ole harvalukuisessa joukossa firmoja töissä. Kun sitten Anthropicilta ja Open AI:lta saa kuun asennosta riippuen vähän mitä sattuu, nousee näiden lokaalien mallien pisteet vertailussa aina vaan korkeammalle.

Paikallisesti pyörivät LLM koodausavustimet

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi