Paikallisesti pyörivät LLM koodausavustimet

Liittynyt
30.10.2019
Viestejä
37
Toivottavasti ei ollut väärä ratkaisu tehä omaa thriidiä tälle. Ajattelin että voisi olla hyvä olla oma ketju näille omassa lokaalissa pyöriville AI-koodausavustimille.

Mä asensin viime viikolla sen uuden Qwen 3.5 9B mallin pyörimään mun Linuxissa LM Studion kautta. LM Studio antaa sun ladata mallit jotka haluat itsellesi pyörimään ja tehdä niihin säätöjä. Siinä on myös CLI jolla voi komentoriviltä käskyttää LM studiota eri tavoin. Omalla koneella pyörittäessä sun data ei siirry hämärään pilveen muuhun käyttöön...

Integraatio ainakin Claude Codeen ja esim. VS Code editoriin pitäisi onnistua suht. iisisti. Tässä Clauden ohjeita sivulta. LM Studio+ClaudeCode: Use your LM Studio Models in Claude Code

Tuo Qwen on testeissä osoittautunut pienempikokoisena monesti paremmaksi kuin kaupalliset isot mallit kooltaan 20B+. Itellä tosiaan se 9B malli mutta Qwen 3.5 tarjoo myös muita versioita (esim 2b, 4b, ...) on siitä isompiakin jos koneessa höyryä riittää.

Mulla on RTX2080 8GB VRAM ja 32GB muistia niin tuo Qwenin "Think"-tila antaa välillä virhettä varsinkin pidemmissä prompteissa. Mutta ilman sitä päättelymoodia se toiminee ihan hyvin koodaustyössä. Tunnustan että en vielä ole ehtinyt Claude Codea laittamaan mutta se olisi seuraava steppi.

Mitä muita kokemuksia?

Screenshot from 2026-03-12 02-00-59.png
 
Viimeksi muokattu:
Tossa kuva jossa LM Studion mallivalikkoa Qwenin osalta.

Itse pyöritän Linux Mintillä (22.3). Toki mallit ei ole aina päällä surisemassa vaan tarvittaessa.

Screenshot from 2026-03-12 02-04-31.png
 
Tossa kuva jossa LM Studion mallivalikkoa Qwenin osalta.

Itse pyöritän Linux Mintillä (22.3). Toki mallit ei ole aina päällä surisemassa vaan tarvittaessa.

Screenshot from 2026-03-12 02-04-31.png
Täällä käytössä LM Studio + VSCode (Win+WSL2 Ubuntu) + OpenCode-laajennos. OpenCode on vähän hölmö oman LM Studio -integraationsa kanssa, ja esim. Cline osaa hakea saatavilla olevat mallit suoraan kun taas OpenCodella ne pitää itse määritellä configiin. Mutta Clinessa sitten taas on subagentit todella rajoittuneita, minkä takia vaihdoin OpenCodeen.

Qwen3.5 27B ollut viimeaikoina käytössä, ja on kyllä melko vakuuttava lokaaliksi malliksi. Kun säkin noita kvantisoituja malleja ajat, suosittelen unslothin tekemiä versioita joissa UD-tunniste.

Suosittelen myös asettamaan LM Studiossa batch sizea ylös, niin että kuitenkin pysyy GPUn VRAMin rajoissa kokonaismuistinkäyttö. Nopeuttaa aika reilusti inferenssiä. Lisäksi jokaiselle mallille kannattaa etsiä julkaisijan suositukset muille parametreille koodauskäyttöä varten. Ne voi erota oletusarvoista selvästi, ja usein esim. temperature pitää asettaa alemmas.
 
Qwen3.5 27B ollut viimeaikoina käytössä, ja on kyllä melko vakuuttava lokaaliksi malliksi. Kun säkin noita kvantisoituja malleja ajat, suosittelen unslothin tekemiä versioita joissa UD-tunniste.

Suosittelen myös asettamaan LM Studiossa batch sizea ylös, niin että kuitenkin pysyy GPUn VRAMin rajoissa kokonaismuistinkäyttö. Nopeuttaa aika reilusti inferenssiä. Lisäksi jokaiselle mallille kannattaa etsiä julkaisijan suositukset muille parametreille koodauskäyttöä varten. Ne voi erota oletusarvoista selvästi, ja usein esim. temperature pitää asettaa alemmas.
Millasella raudalla hurruuttelet menemään jos 27B pyörii. Mulla tulee usein choke (failed) Think-moodi päällä tällä 9B mallilla. Mulla tosin on vaan 2080 8GB VRAM ja 32GB RAM... Pitää kattoo noita asetuksia, voihan se olla vika sielläkin.
 
Millasella raudalla hurruuttelet menemään jos 27B pyörii. Mulla tulee usein choke (failed) Think-moodi päällä tällä 9B mallilla. Mulla tosin on vaan 2080 8GB VRAM ja 32GB RAM... Pitää kattoo noita asetuksia, voihan se olla vika sielläkin.
RTX 6000 Ada, 7965wx, 256 GB RAM. 8bit kvantisaatio mullakin silti tossa.
 

Statistiikka

Viestiketjuista
302 512
Viestejä
5 147 650
Jäsenet
82 174
Uusin jäsen
MikkoH89

Hinta.fi

Back
Ylös Bottom