AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

On niissä paljon eroja jopa samankin mallin sisällä. Esim. clauden uusin opus niin sitä voi ajaa erilaisilla määrillä "työtä". Suosittelevat, että isoihin taskeihin/suunnitteluun high ja kun on palasteltu niin medium:lla toteutusta. Kuvassa opus 4.5 mallin suorituskyky swe-bench:ssa eri "työ" parametrilla.

Eri työkaluista kun käyttää malleja niin asetuksia on voitu optimoida eri tavalla(kontekstin koko, effortti, jne). Työkalun sisässä on prompti kielimallille ja logiikka mitä/miten työkalu laittaa kontekstiin. Sama malli samoilla asetuksilla voi toimia eri tavalla työkalusta riippuen. Jopa sillä, että importtaa sairaan määrän mcp-servereitä ja työkaluja kontekstiin voi myrkyttää mallin osaamisen ja käytettävien tokeneiden määrä kuuhun==kallista.

Ei olla vielä semmoisessa "it just works" ajassa. Jos/kun joku ei onnistu niin voi katsella, että toimisko eri mallilla/eri tavalla homman alustamalla vai onko vielä tekemätön paikka AI:lle.
1764881934832.png
Nyt alkaa silmät painaa liikaa ja liikaa infoa näihin tunteihin mun pienille avoille, ni mä harrastan viikonloppuna lisää 😊 varsinkin ko si nähny kuinka yö automatio nyt toiminut fiksausten jälkeen
Edit toki siinä tehdesaäkin huomasin et ohitti välillä koko koodin ja keskittyi vain juuri ongelmaan, ja piti ohjeistaa palauttamaan koko kokonaisuus. Mut se oli helpoa. Niin ja sillon ollu viellä got repoa, ihan filua luki ja chatissa annoin jsonia node rediltä. Ni paikkas siis vaan yhen ongelman yksin ja muut toiminnot siis jäi pois, mut kun huomautti tuntui tulevan toimiva kokonaisuus
 
Viimeksi muokattu:
OpenAI julisti jonkin "code red" tilan, huhuttu että ihan asap. tulossa ulos jotain paremmaksi tuunattua mallia.
Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.
 
Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.
Altman sanoi joskus syksyllä, että heillä olisi parempia malleja mutta ei riitä konesalissa kapasiteetti niiden tarjoamiseen isolle massalle. Voi olla, että kaivavat jonkin tuollaisen naftaliinista ja ottavat lyhytaikaisesti turpaan kalliin mallin kanssa jota ei voi tarjota kaikille.

Eilen kuuntelin anthropicin CEO:n jutustelua. Se siunaili, että hyvä juttu että tuli valittua enterprise asiakkaat niin ei tarvi openai/google nokitteluun osallistua vaan voi tehdä vähän pitkäjänteisemmin. Ilmeisesti anthropicin isompi asiakasmassa ei ryntää joka rasahduksen perässä palvelusta toiseen.
 
Claude codessa on Opus 4.5 oletuksena päällä, mutta se automaattisesti tekee simppelit asiat Haiku-agentilla. Nopeuttaa paljon eikä kuluta pääagentin kontekstia.
 
Tuohon tulee kyllä hyvin intuitio, nykyään aina takaraivossa jyskyttää "tähän tarvii Codex Max Extra highillä, tuohon Gemini, tätä pitää selvittää Grokilta..".
Samoilla linjoilla, itse lajittelen hommat näin:

Pieni taski: pieni konteksti, "lähdemateriaali" selkeä ja lopputulos helppo/nopea määritellä (ei oikeastaan tarvitse plan-modea) > Haiku.

Keskikokoinen taski: Vaatii suunnitelman, jota pitää iteroinnissa hieman hioa. Lopputuloksen määrittely voi jäädä osittain avoimeksi, koska se voi olla monivaiheinen tai kompleksinen > Opus/Sonnet.

Iso taski: Tarvitsee useamman iteraation, lopputulosta on vaikea tarkasti määritellä, mutta lähtökohtaisesti odotetaan, että se menee kuitenkin sinnepäin, joten palastellaan pienempiin osiin myöhemmin > GPT 5.1.
 
En ole koodari tai edes sinne päin. Joskus jotain simppeliä HTML:ää ja sitten nuorempana töissä CNC-ohjelmoijana pari vuotta.

Ihan siis maallikkona koneinsinöörinä ajauduin kokeilemaan miten tekoäly osaa koodata Shelly releen skriptiä. Kokeilin ensin Copilotilla ja kyllähän se koodia väänsi ja ehdotteli kaikkea. Pyysin skriptin, jolla säädän auton lämmityksen ajastinta seuraavan aamun sääennusteen mukaan. Copilot teki koodin ja sitten ihan huvikseni annoin sen chatgpt:lle. chatgpt ehdotti parannuksia, jotka käskin tekemään ja korjasi pari virhettä. Ihan leikkimielellä käytin vielä Githubin Copilotin kautta, joka sitten teki omia ehdotuksiaan ja halusi palauttaa yhden MS Copilotin tekemän alkuperäisen virheenkin. Muutaman kerran leikittelin edestakaisin ja "kilpailutin" tekoälyjä. tekoäly korjasi virheet tosi hyvin, kun vain pastetti virheilmoituksen.

Skriptillä mittaa n 300 riviä ja toimii suunnitellusti. Siis en osaa koodata Shellyn koodia, mutta toki jotakin ymmärrän koodia lukemalla. Tekoälyn avulla tein toimivan skriptin ihan maallikkopohjalta.
 
Huhut kertoo, että GPT 5.2 julkaisu ensi-viikolla..

Mielenkiintoista, itellä ollu jonkun aikaa 5.1 maksullinen. Olen testaillut asiakirjoilla ja kuvien rajauksia ymv. Periaatteessa logiikka on olemassa, mutta ne toimivat hyvin epäsäännöllisesti. Jostain syystä esim. jos pyydä rajaamaan kuvan, niin ensimmäinen on lähellä ja sen jälkeen progressiivisesti huonompaan suuntaan. Vaikka pyytää nollaamaan tilanteen, välillä nollauksissa pyytää lähettämään kuvan uudelleen ym.

Asiakirjoissa ei toistaiseksi ole tullut mitään hyötyä, mutta kokeilen seuraavalla kerralla AI ystävällisempiä versioita. Yritin siis käyttää niitä kuten assistenttia, annan yksinkertaisen hieman aikaavievän tehtävän.
 
Sieltähän se 5.2 tuli, hyvin pärjää benchmarkeissa.
Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

swe-bench-verified tuloksia ja hinta millä tulos on saatu. Tästä puuttuu mallien ajo parhailla asetuksilla
G76n3T2W4AA6tSU
 
Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

1765545320525.png

Summarum, taidan katsoa jatkossa vain SwePro tuloksia johtuen noista syistä. Lisää infoa:
SWE-Bench Pro (Public Dataset)



Ja huomaa kyllä, että eipä mallien ratkaisuprosentit 80% tuntumassa:
1765545412330.png


Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.
 
Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.
Taitaa olla vähän petkuhuijausta ja optimoivat erityisesti benchmarkkeihin malleja. Toiset enempi, toiset vähempi. Varsinkin open source lokaalimallit niin osaavat jotain leetcode tehtäviä mitkä opetusdatassa tosi hyvin mutta kun antaa oikeaa tehtävää niin hajoavat täysin.
 
Mistralilta koodaukseen tarkoitettu 123B malli + työkaluja. Näinköhän joutuu pian lopettamaan jankkaamisen siitä ettei ole olemassa lokaalisti edes pienissä projekteissa hyvin toimivia koodiavustimia
On Tuesday, French AI startup Mistral AI released Devstral 2, a 123 billion parameter open-weights coding model designed to work as part of an autonomous software engineering agent. The model achieves a 72.2 percent score on SWE-bench Verified,
it released a new development app called Mistral Vibe. It’s a command line interface (CLI) similar to Claude Code, OpenAI Codex, and Gemini CLI that lets developers interact with the Devstral models directly in their terminal. The tool can scan file structures and Git status to maintain context across an entire project, make changes across multiple files, and execute shell commands autonomously. Mistral released the CLI under the Apache 2.0 license.

edit. Näyttää olevan devstral2 isona ja pienempänä versiona ollamassa tarjolla. Vois tuolle syöttää muutaman adventofcode tehtävän ja katsoa ratkaiseeko vai ei
 
Ei tarvi 123B devstralia kuvitella käyttävänsä 5090:lla. Teki sitten oikein tai väärin niin ei universumissa riitä aika tällä minkään tekemiseen. Tarvii kokeilla jaksaako macbook pro m4 max paremmin kun siinä ainakin muisti riittäisi paremmin. Tuskin sekään on ... nopea ...

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://www.youtube.com/watch?v=d9iZO-DMHIY

m4 max:lla paljon nopeampi kuin 5090:lla(muisti riittää). Silti niin hidas, että ennemmin maksaisin pilvestä kuin kärsisin tämän kanssa.
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://www.youtube.com/watch?v=anwphFzezr4
 
Viimeksi muokattu:
Töissä ollut nyt jonkun aikaa (jokusen kuukauden) käytössä GitHubin CoPilot. Opettelua siis vielä. Yksittäinen kurssi käyty asian parissa, plus harrastuneisuutta vähän chatgpt:n ilmaisen webbiversion kautta jonkun verran. Hyvin minimaalisesti ehtinyt vielä lukea best practiceistä, yms. saati edistyneemmistä asioista, kuten MCP:istä.

Koodipohja (jonka kanssa joudun elämään toistaiseksi) on siis legacy webbisofta koostuen sadoista perl-scripteistä (joita kutsutaan Apachen kautta cgi-scripteinä). Parhaimmillaan yksi scripti on muutaman sata riviä, pahimmillaan 10k riviä. Lähes täysin "pötkökoodia", subeja on korkeintaan johonkin "muodosta timestamppi just meidän tarvitsemassa formaatissa". Olio-ohjelmoinnista ei tietoakaan. Oikea painajainen siis. Oikeita kirjastoja ei siis ole tehty tähän softaan, vaan jotain hyödyllisiä subeja kerätty "kirjastoon", joka "käännöksessä" concatenoidaan alkuperäiseen scriptiin.

Alasajo-moodissa, korvataan tuoreemmilla tuotteilla. Uutta toiminnallisuutta ei tule tehtyä muutoin kuin pakottavissa tilanteissa ("tämä toiminnallisuus on pakko saada just-nyt-heti, jo ennenkuin korvaava toteutus tälle koko ominaisuus-modulille tulee").

Uudet ominaisuudet (lähinnä pieniä pakottavia muutoksia, uusia kenttiä lomakkeisiin, muutama pieni uusi työnkulku käyttäjälle, jne...) muodostuu kyllä mun kokemuksen mukaan kohtuullisen näppärästi pohjalla olevan scriptin pituudesta riippumatta oikeastaan millä tahansa mallilla. Välillä olen kokeillut tehdä saman homman vertailun vuoksi eri malleilla, eikä tuloksissa sinänsä mitään merkittävää eroa. Katselmointi näyttää olevan hyvin tärkeää, mallista riippumatta. Vaikkei varsinaisia virheitä ehkä sinänsä koodissa ole ollut, tulee katselmoidessa hyvin ilmi promptin puutteet. Hauskaa on myös huomata, että eri mallit näyttävät katselmoivan koodia ihan pätevästi, vaikka en uskallakaan ulkoistaa muutosten katselmointia pelkästään kielimalleille. Katselmoinnissa huomatut virheet (promptin puutteet tai oikeasti virheet tuotetussa koodissa) korjautuu myös näppärästi. Mutta jos samaa muutosta/koodia iteroi monia kertoja (kymmeniä prompteja samaa asiaa parantaen, lisäten, korjaten), olen huomannut että parempi jatkaa taas uudella tyhjällä historialla. Jostain syystä samoja virheitä, joita on jo korjattu, alka palaamaan koodiin takaisin uusien muutosten myötä, ellei ihan spesifisti promptaa, että "korjaa vain ja ainoastaan just tämä yksi spesifi ongelma, äläkä koske yhtään mihinkään muuhun".

Vanhan koodin debuggauksessa ja analysoinnissa (virhetilanteessa, "analysoi miksi ja missä tilanteissa tämä scripti voi päätyä lopputulokseen x-ja-y") eroja sen sijaan alkaa muodostua selkeästi eri kielimallien kanssa. Itse olen Clauden Sonnetista (meillä käytössä olevista malleista) eniten vakuuttunut, GPT5 mini tuntuu alkavan hidastua ja sekoilemaan hyvin äkkiä tuollaisten pitkien pötkökoodien kanssa.
 
Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.
 
Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.

Ei ole, GPT 5.2 on parempi nykyään, claude on vanhentunut.
 

Statistiikka

Viestiketjuista
295 499
Viestejä
5 048 287
Jäsenet
80 893
Uusin jäsen
Rica

Hinta.fi

Back
Ylös Bottom