AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Miksuu · 04.12.2025

finWeazel sanoi:
On niissä paljon eroja jopa samankin mallin sisällä. Esim. clauden uusin opus niin sitä voi ajaa erilaisilla määrillä "työtä". Suosittelevat, että isoihin taskeihin/suunnitteluun high ja kun on palasteltu niin medium:lla toteutusta. Kuvassa opus 4.5 mallin suorituskyky swe-bench:ssa eri "työ" parametrilla.

Eri työkaluista kun käyttää malleja niin asetuksia on voitu optimoida eri tavalla(kontekstin koko, effortti, jne). Työkalun sisässä on prompti kielimallille ja logiikka mitä/miten työkalu laittaa kontekstiin. Sama malli samoilla asetuksilla voi toimia eri tavalla työkalusta riippuen. Jopa sillä, että importtaa sairaan määrän mcp-servereitä ja työkaluja kontekstiin voi myrkyttää mallin osaamisen ja käytettävien tokeneiden määrä kuuhun==kallista.

Ei olla vielä semmoisessa "it just works" ajassa. Jos/kun joku ei onnistu niin voi katsella, että toimisko eri mallilla/eri tavalla homman alustamalla vai onko vielä tekemätön paikka AI:lle.

Nyt alkaa silmät painaa liikaa ja liikaa infoa näihin tunteihin mun pienille avoille, ni mä harrastan viikonloppuna lisää

varsinkin ko si nähny kuinka yö automatio nyt toiminut fiksausten jälkeen
Edit toki siinä tehdesaäkin huomasin et ohitti välillä koko koodin ja keskittyi vain juuri ongelmaan, ja piti ohjeistaa palauttamaan koko kokonaisuus. Mut se oli helpoa. Niin ja sillon ollu viellä got repoa, ihan filua luki ja chatissa annoin jsonia node rediltä. Ni paikkas siis vaan yhen ongelman yksin ja muut toiminnot siis jäi pois, mut kun huomautti tuntui tulevan toimiva kokonaisuus

mlackke · 04.12.2025

finWeazel sanoi:
OpenAI julisti jonkin "code red" tilan, huhuttu että ihan asap. tulossa ulos jotain paremmaksi tuunattua mallia.

Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.

finWeazel · 04.12.2025

mlackke sanoi:
Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.

Altman sanoi joskus syksyllä, että heillä olisi parempia malleja mutta ei riitä konesalissa kapasiteetti niiden tarjoamiseen isolle massalle. Voi olla, että kaivavat jonkin tuollaisen naftaliinista ja ottavat lyhytaikaisesti turpaan kalliin mallin kanssa jota ei voi tarjota kaikille.

Eilen kuuntelin anthropicin CEO:n jutustelua. Se siunaili, että hyvä juttu että tuli valittua enterprise asiakkaat niin ei tarvi openai/google nokitteluun osallistua vaan voi tehdä vähän pitkäjänteisemmin. Ilmeisesti anthropicin isompi asiakasmassa ei ryntää joka rasahduksen perässä palvelusta toiseen.

Sparky · 05.12.2025

Claude codessa on Opus 4.5 oletuksena päällä, mutta se automaattisesti tekee simppelit asiat Haiku-agentilla. Nopeuttaa paljon eikä kuluta pääagentin kontekstia.

mlackke · 05.12.2025

El Toro sanoi:
Tuohon tulee kyllä hyvin intuitio, nykyään aina takaraivossa jyskyttää "tähän tarvii Codex Max Extra highillä, tuohon Gemini, tätä pitää selvittää Grokilta..".

Samoilla linjoilla, itse lajittelen hommat näin:

Pieni taski: pieni konteksti, "lähdemateriaali" selkeä ja lopputulos helppo/nopea määritellä (ei oikeastaan tarvitse plan-modea) > Haiku.

Keskikokoinen taski: Vaatii suunnitelman, jota pitää iteroinnissa hieman hioa. Lopputuloksen määrittely voi jäädä osittain avoimeksi, koska se voi olla monivaiheinen tai kompleksinen > Opus/Sonnet.

Iso taski: Tarvitsee useamman iteraation, lopputulosta on vaikea tarkasti määritellä, mutta lähtökohtaisesti odotetaan, että se menee kuitenkin sinnepäin, joten palastellaan pienempiin osiin myöhemmin > GPT 5.1.

B12 · 06.12.2025

En ole koodari tai edes sinne päin. Joskus jotain simppeliä HTML:ää ja sitten nuorempana töissä CNC-ohjelmoijana pari vuotta.

Ihan siis maallikkona koneinsinöörinä ajauduin kokeilemaan miten tekoäly osaa koodata Shelly releen skriptiä. Kokeilin ensin Copilotilla ja kyllähän se koodia väänsi ja ehdotteli kaikkea. Pyysin skriptin, jolla säädän auton lämmityksen ajastinta seuraavan aamun sääennusteen mukaan. Copilot teki koodin ja sitten ihan huvikseni annoin sen chatgpt:lle. chatgpt ehdotti parannuksia, jotka käskin tekemään ja korjasi pari virhettä. Ihan leikkimielellä käytin vielä Githubin Copilotin kautta, joka sitten teki omia ehdotuksiaan ja halusi palauttaa yhden MS Copilotin tekemän alkuperäisen virheenkin. Muutaman kerran leikittelin edestakaisin ja "kilpailutin" tekoälyjä. tekoäly korjasi virheet tosi hyvin, kun vain pastetti virheilmoituksen.

Skriptillä mittaa n 300 riviä ja toimii suunnitellusti. Siis en osaa koodata Shellyn koodia, mutta toki jotakin ymmärrän koodia lukemalla. Tekoälyn avulla tein toimivan skriptin ihan maallikkopohjalta.

mlackke · 06.12.2025

finWeazel sanoi:
Voi olla, että kaivavat jonkin tuollaisen naftaliinista ja ottavat lyhytaikaisesti turpaan kalliin mallin kanssa jota ei voi tarjota kaikille.

Huhut kertoo, että GPT 5.2 julkaisu ensi-viikolla..

Tuomi0 · 06.12.2025

mlackke sanoi:
Huhut kertoo, että GPT 5.2 julkaisu ensi-viikolla..

Mielenkiintoista, itellä ollu jonkun aikaa 5.1 maksullinen. Olen testaillut asiakirjoilla ja kuvien rajauksia ymv. Periaatteessa logiikka on olemassa, mutta ne toimivat hyvin epäsäännöllisesti. Jostain syystä esim. jos pyydä rajaamaan kuvan, niin ensimmäinen on lähellä ja sen jälkeen progressiivisesti huonompaan suuntaan. Vaikka pyytää nollaamaan tilanteen, välillä nollauksissa pyytää lähettämään kuvan uudelleen ym.

Asiakirjoissa ei toistaiseksi ole tullut mitään hyötyä, mutta kokeilen seuraavalla kerralla AI ystävällisempiä versioita. Yritin siis käyttää niitä kuten assistenttia, annan yksinkertaisen hieman aikaavievän tehtävän.

Sparky · perjantaina klo 06:34

Sieltähän se 5.2 tuli, hyvin pärjää benchmarkeissa.

finWeazel · perjantaina klo 14:13

Sparky sanoi:
Sieltähän se 5.2 tuli, hyvin pärjää benchmarkeissa.

Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

swe-bench-verified tuloksia ja hinta millä tulos on saatu. Tästä puuttuu mallien ajo parhailla asetuksilla

mlackke · perjantaina klo 15:26

finWeazel sanoi:
Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

Summarum, taidan katsoa jatkossa vain SwePro tuloksia johtuen noista syistä. Lisää infoa:
SWE-Bench Pro (Public Dataset)

Ja huomaa kyllä, että eipä mallien ratkaisuprosentit 80% tuntumassa:

Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.

finWeazel · perjantaina klo 15:45

mlackke sanoi:
Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.

Taitaa olla vähän petkuhuijausta ja optimoivat erityisesti benchmarkkeihin malleja. Toiset enempi, toiset vähempi. Varsinkin open source lokaalimallit niin osaavat jotain leetcode tehtäviä mitkä opetusdatassa tosi hyvin mutta kun antaa oikeaa tehtävää niin hajoavat täysin.

finWeazel · perjantaina klo 19:34

Mistralilta koodaukseen tarkoitettu 123B malli + työkaluja. Näinköhän joutuu pian lopettamaan jankkaamisen siitä ettei ole olemassa lokaalisti edes pienissä projekteissa hyvin toimivia koodiavustimia

On Tuesday, French AI startup Mistral AI released Devstral 2, a 123 billion parameter open-weights coding model designed to work as part of an autonomous software engineering agent. The model achieves a 72.2 percent score on SWE-bench Verified,

it released a new development app called Mistral Vibe. It’s a command line interface (CLI) similar to Claude Code, OpenAI Codex, and Gemini CLI that lets developers interact with the Devstral models directly in their terminal. The tool can scan file structures and Git status to maintain context across an entire project, make changes across multiple files, and execute shell commands autonomously. Mistral released the CLI under the Apache 2.0 license.

A new open-weights AI coding model is closing in on proprietary options

Devstral 2 model scores 72% on industry benchmark, nearing proprietary rivals.

arstechnica.com

edit. Näyttää olevan devstral2 isona ja pienempänä versiona ollamassa tarjolla. Vois tuolle syöttää muutaman adventofcode tehtävän ja katsoa ratkaiseeko vai ei

finWeazel · perjantaina klo 20:53

Ei tarvi 123B devstralia kuvitella käyttävänsä 5090:lla. Teki sitten oikein tai väärin niin ei universumissa riitä aika tällä minkään tekemiseen. Tarvii kokeilla jaksaako macbook pro m4 max paremmin kun siinä ainakin muisti riittäisi paremmin. Tuskin sekään on ... nopea ...

Linkki: https://www.youtube.com/watch?v=d9iZO-DMHIY

m4 max:lla paljon nopeampi kuin 5090:lla(muisti riittää). Silti niin hidas, että ennemmin maksaisin pilvestä kuin kärsisin tämän kanssa.

Linkki: https://www.youtube.com/watch?v=anwphFzezr4

AkiL · tänään klo 09:55

Töissä ollut nyt jonkun aikaa (jokusen kuukauden) käytössä GitHubin CoPilot. Opettelua siis vielä. Yksittäinen kurssi käyty asian parissa, plus harrastuneisuutta vähän chatgpt:n ilmaisen webbiversion kautta jonkun verran. Hyvin minimaalisesti ehtinyt vielä lukea best practiceistä, yms. saati edistyneemmistä asioista, kuten MCP:istä.

Koodipohja (jonka kanssa joudun elämään toistaiseksi) on siis legacy webbisofta koostuen sadoista perl-scripteistä (joita kutsutaan Apachen kautta cgi-scripteinä). Parhaimmillaan yksi scripti on muutaman sata riviä, pahimmillaan 10k riviä. Lähes täysin "pötkökoodia", subeja on korkeintaan johonkin "muodosta timestamppi just meidän tarvitsemassa formaatissa". Olio-ohjelmoinnista ei tietoakaan. Oikea painajainen siis. Oikeita kirjastoja ei siis ole tehty tähän softaan, vaan jotain hyödyllisiä subeja kerätty "kirjastoon", joka "käännöksessä" concatenoidaan alkuperäiseen scriptiin.

Alasajo-moodissa, korvataan tuoreemmilla tuotteilla. Uutta toiminnallisuutta ei tule tehtyä muutoin kuin pakottavissa tilanteissa ("tämä toiminnallisuus on pakko saada just-nyt-heti, jo ennenkuin korvaava toteutus tälle koko ominaisuus-modulille tulee").

Uudet ominaisuudet (lähinnä pieniä pakottavia muutoksia, uusia kenttiä lomakkeisiin, muutama pieni uusi työnkulku käyttäjälle, jne...) muodostuu kyllä mun kokemuksen mukaan kohtuullisen näppärästi pohjalla olevan scriptin pituudesta riippumatta oikeastaan millä tahansa mallilla. Välillä olen kokeillut tehdä saman homman vertailun vuoksi eri malleilla, eikä tuloksissa sinänsä mitään merkittävää eroa. Katselmointi näyttää olevan hyvin tärkeää, mallista riippumatta. Vaikkei varsinaisia virheitä ehkä sinänsä koodissa ole ollut, tulee katselmoidessa hyvin ilmi promptin puutteet. Hauskaa on myös huomata, että eri mallit näyttävät katselmoivan koodia ihan pätevästi, vaikka en uskallakaan ulkoistaa muutosten katselmointia pelkästään kielimalleille. Katselmoinnissa huomatut virheet (promptin puutteet tai oikeasti virheet tuotetussa koodissa) korjautuu myös näppärästi. Mutta jos samaa muutosta/koodia iteroi monia kertoja (kymmeniä prompteja samaa asiaa parantaen, lisäten, korjaten), olen huomannut että parempi jatkaa taas uudella tyhjällä historialla. Jostain syystä samoja virheitä, joita on jo korjattu, alka palaamaan koodiin takaisin uusien muutosten myötä, ellei ihan spesifisti promptaa, että "korjaa vain ja ainoastaan just tämä yksi spesifi ongelma, äläkä koske yhtään mihinkään muuhun".

Vanhan koodin debuggauksessa ja analysoinnissa (virhetilanteessa, "analysoi miksi ja missä tilanteissa tämä scripti voi päätyä lopputulokseen x-ja-y") eroja sen sijaan alkaa muodostua selkeästi eri kielimallien kanssa. Itse olen Clauden Sonnetista (meillä käytössä olevista malleista) eniten vakuuttunut, GPT5 mini tuntuu alkavan hidastua ja sekoilemaan hyvin äkkiä tuollaisten pitkien pötkökoodien kanssa.

Sparky · tänään klo 13:04

Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.

tjkoo · tänään klo 15:04

Sparky sanoi:
Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.

Ei ole, GPT 5.2 on parempi nykyään, claude on vanhentunut.

AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Miksuu

mlackke

finWeazel

Sparky

mlackke

B12

BANNATTU

mlackke

Tuomi0

Sparky

finWeazel

mlackke

finWeazel

finWeazel

A new open-weights AI coding model is closing in on proprietary options

finWeazel

AkiL

Sparky

tjkoo

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi