AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Mietin kapasiteettiasiaa niin ehkä parhaat toivot olisivat, että saavat tehtyä kevyemmän hyvän mallin mikä laskisi kuormaa konesalissa. Toinen mikä tulee mieleen niin ehkä mistral, meta, xai yms. jos saisivat hyvät palvelut kehiin niin tuo voisi vapauttaa openai/anthropic/googlelta kapasiteettia "Koodereille". METAn frontier mallihan floppas täysin viime vuonna. Uusittu tiimi metalla nyt, huhuissa että meta ja xai molemmat julkaisisivat uudet frontier mallinsa alkuvuodesta. xai:n mallin kooksi varmistettu 6 biljoonaa parametria, järjettömän kokoinen.

Eka viikko tulee missä tokenit loppuu kesken, pääsee polttamaan anthropicin 50$ lahjatokenit pois. Ne palaa ihan hetkessä.
1770892004741.png
 
Mietin kapasiteettiasiaa niin ehkä parhaat toivot olisivat, että saavat tehtyä kevyemmän hyvän mallin mikä laskisi kuormaa konesalissa.

Eikös tuo nyt ole GPT 5.3:n tapaus aikalailla, samalla kapasiteetilla saadaan enemmän käyttäjiä? 5.2-codex oli todella hidas, mutta itse en ole huomannut nyt 5.3:lla kapasiteettiongelmia. Sen lisäksi ainakin nämä väliaikaiset tuplatokenit ovat näppäriä, ei ole loppunut itselläni tuo $20 plan kesken (Claudella tarvitsisi samaan jo tuota $100/kk jos tokenit olisivat 1:1). Mutta en siis käytä tuota GPT subscriptionia kuin omiin harrastusprojekteihin iltaisin/viikonloppuisin, töissä on sitten omat ratkaisunsa (jotka ovat tosin umpisurkeita nykyisin, mutta varmaan jonkun ego on iskenyt väliin joka näistä päättää).
 
Eikös tuo nyt ole GPT 5.3:n tapaus aikalailla, samalla kapasiteetilla saadaan enemmän käyttäjiä? 5.2-codex oli todella hidas, mutta itse en ole huomannut nyt 5.3:lla kapasiteettiongelmia. Sen lisäksi ainakin nämä väliaikaiset tuplatokenit ovat näppäriä, ei ole loppunut itselläni tuo $20 plan kesken (Claudella tarvitsisi samaan jo tuota $100/kk jos tokenit olisivat 1:1). Mutta en siis käytä tuota GPT subscriptionia kuin omiin harrastusprojekteihin iltaisin/viikonloppuisin, töissä on sitten omat ratkaisunsa (jotka ovat tosin umpisurkeita nykyisin, mutta varmaan jonkun ego on iskenyt väliin joka näistä päättää).
Koko kapasiteettiasia on spekulointia. Luet taaksepäin niin löytyy viestiä missä google temppuilee mallien kanssa. Anthropicilla taas sitten fast moodi mistä pitää maksaa reilusti extraa ja opus4.6 perusrahalla ostettuna hidas. Tähän päälle spekulaatiot siitä miten kapasiteetti riittää, jos palvelut kehittyvät suuntaan missä käyttömäärä lisääntyy nopeammin kuin kapasiteetti.

OpenAI:n edustajat sanoneet että heillä(kin) kapasiteettiasia rajoittaa mitä voivat tarjota. Rakentavat maksimit uutta kapasiteettia niin nopeasti kuin vain voivat.
 
Viimeksi muokattu:
Koko kapasiteettiasia on spekulointia. Luet taaksepäin niin löytyy viestiä missä google temppuilee mallien kanssa. Anthropicilla taas sitten fast moodi mistä pitää maksaa reilusti extraa ja opus4.6 perusrahalla ostettuna hidas. Tähän päälle spekulaatiot siitä miten kapasiteetti riittää, jos palvelut kehittyvät suuntaan missä käyttömäärä lisääntyy nopeammin kuin kapasiteetti.

Toki on spekulointia, ainahan mahdollisuus Opuksenkin kohdalla on että 4.6:ssa jokin meni pieleen jonka takia jokin ei toimi (vaikka ihan välimuisti). Voipi myös olla syynä miksemme ole nähneet Sonnet/Haiku 4.6:sta (tai sitten niistä ei tullut kilpailukykyisiä edes ilmaisiin malleihin nähden niin päättivät jättää julkaisematat). Mutta näissä täytyy myös muistaa että OpenAI/Anthropic ovat pitkään ajatelleet että lisätään vain rautaa, kyllä se siitä mitä tulee skaalautumiseen, samalla tavalla kuin monet edellisetkin tekniikan kierrot ovat tehneet. Verrataan näitä taas kiinalaisiin malleihin, heillä kun on vähemmän rautaa, niin ovat joutuneet keksimään järkevämpiä algoritmeja millä saadaan vaikkapa muistinkäyttöä laskettua. Suurin osahan näistä keksinnöistä ja papereista on kuitenkin kiinalaisilta viime aikoina. Mahdollisesti OpenAI/Anthropic joutuvat oikeasti pohtimaan kyseisten tekniikoiden käyttämistä jos eivät pysty enää kilpailemaan vain raudan lisäämisellä.

Hinnathan ovat myös kivunneet aikalailla (jossa on toki myös "SOTA" lisäystä ja brandausta), mutta jossain vaiheessa tulee sekin kohta ettei moni LLM:ää käyttävä keksintö ole enää järkevä, jos hinta on liian korkea suhteessa hyötyyn. Eli markkinat eivät välttämättä enää tule loputtomiin hyväksymään pelkästään "rautaa rajalle ja hintoja ylös" menetelmiä. Näinhän käy jokaisessa tällaisessa hype-cyclessa tällä alalla kuitenkin. Puhumattakaan tilanteesta jossa kilpailijoita alkaa tippumaan kun eivät voi subventoida ikuisuuksiin ja rahaakin pitäisi saada tehtyä. Ilmainen raha loppuu lopulta aina.
 
Toki on spekulointia, ainahan mahdollisuus Opuksenkin kohdalla on että 4.6:ssa jokin meni pieleen
Opus 4.6:en saa nopeampana rahaa vastaan. Spekulaatiot miksi näin ketjussa aikaisemmin kuten myös linkki anthropicin sivuille missä fast selitetään. Täysin sama malli kuin hitaampi. Ainoa ero hinnassa.
 
Opus 4.6:en saa nopeampana rahaa vastaan. Spekulaatiot miksi näin ketjussa aikaisemmin kuten myös linkki anthropicin sivuille missä fast selitetään. Täysin sama malli kuin hitaampi. Ainoa ero hinnassa.

Mikä ei tarkoita yhtään mitään siihen epäonnistuiko Opus vai ei. Rahalla saa vaikka omat GPU:t ilman että kukaan muu voi niitä käyttää, mutta se ei tarkoita etteikö mallissa olisi valtavia ongelmia mitä tulee yleiseen käyttöön jossa cachet ja pipelinet ja batchaus ovat tärkeitä jotta saadaan kuormaa alaspäin. Tai sitten tämä on vain piilotettu heikennys millä saadaan vähennettyä niitä $200 käyttäjien tuhlaamia resursseja. Hinta ei noussut, mutta vähemmän saa vain kulutettua resursseja.

Spekulointia, mutta mikään vaihtoehto ei varsinaisesti ole pois suljettu.
 
En tiedä kuvittelenko vain, mutta claude code + opus 4.6 tuntuisi hieman nopeammalta tänään ja syö tokeneita urakalla. Silloin kun valittelin, että on erityisen hidas niin ei saanut millään 5h aikaikkunassa kaikkia tokeneita käytettyä, nyt alkaa hakkaamaan rajoittimeen ja ei voi käyttää mielin määrin. Liekö sitten tuunanneet normi ja fast moodin välistä eroa pienemmäksi tai ehkä normimoodin nopeus vaihtelee konesalikapasiteetin puitteissa.
 
Uusittu tiimi metalla nyt, huhuissa että meta ja xai molemmat julkaisisivat uudet frontier mallinsa alkuvuodesta. xai:n mallin kooksi varmistettu 6 biljoonaa parametria, järjettömän kokoinen.
Rukoilen, että nuo mallit onnistuu ja panostavat agentteihin, tämä on aika ikävä tilanne, kun vain kaksi firmaa tarjoaa hyviä. Grokille on todella kovat odotukset, nykyistä mallia tulee jo usein suosittua tiedonhaussa, tuntuu antavan usein parempia tuloksia kuin muut.

En tiedä kuvittelenko vain, mutta claude code + opus 4.6 tuntuisi hieman nopeammalta tänään ja syö tokeneita urakalla. Silloin kun valittelin, että on erityisen hidas niin ei saanut millään 5h aikaikkunassa kaikkia tokeneita käytettyä, nyt alkaa hakkaamaan rajoittimeen ja ei voi käyttää mielin määrin. Liekö sitten tuunanneet normi ja fast moodin välistä eroa pienemmäksi tai ehkä normimoodin nopeus vaihtelee konesalikapasiteetin puitteissa.
Ärsyttävää, kun eivät juuri ilmoittele muutoksista mitään, joka päivä saa aina kauhulla katsoa kulutusta, että täyttyykö palkki tänään pikavauhtia vai hitaasti.

Mikä ei tarkoita yhtään mitään siihen epäonnistuiko Opus vai ei.
Onkohan noilla tullut raja vastaan, eivät saa lisää älyä ilman pidempää pohtimista? 5.2 on myös hyvin hidas ja 5.3 saivat nopeutta, mutta osa valittaa sen olevan huonompi, en itse vielä osaa sanoa, kun niin vähän kerennyt käyttämään.
 
Ärsyttävää, kun eivät juuri ilmoittele muutoksista mitään, joka päivä saa aina kauhulla katsoa kulutusta, että täyttyykö palkki tänään pikavauhtia vai hitaasti.
En usko, että per token hinta claude code:ssa max plan:ssa vaihtelee. Jos tokenit tulee ulos nopeammin niin pääsee nopeammin siihen rajaan mitä saa 5h ja viikon aikana käyttää. Niin tai näin niin saman määrän tokeneita saa tilauksella. Tietty se, että minkälaisia muutoksia tekee ts. kontekstin koko myös, jos riipasee isoja asioita käsiteltäväksi niin tokeneita palaa enemmän. Mun käytössä aika samanlaista piipertämistä koko ajan niin en taskien erilaisuuden piikkiin uskalla laittaa tän päivän limitteihin hakkaamista.
 
Sivusta sen verran huutelua, että tämä glm-4.7-flash taitaa olla reilusti paras lokaalimalli mikä mahtuu 24GB kortilla muistiin.

1770829896515.png

Kokeilin glm-4.7-flashia. Ensimmäiset pienemmät tehtävät yllätti positiivisesti ja päätyi samoihin ratkaisuihin codex 5.3 mallin kanssa samassa ajassa (varmistelua näkyi vähemmän, mutta tässä sitä ei tarvittu). Sitten kokeilin taskeja joissa pitää ymmärtää edellisten taskien asiat, ja glm ei löytänyt koukkua jonka se olisi voinut tietää aiemmasta taskista. Lopuksi laitoin megataskin etsiä suorityskykyongelmia, codex vähän oikaisi ja kertoi muutaman aika pienen ongelman. Glm mietti tunnin ja toisenkin, pysäytin sen ja en siinä sessiossa saanut enää vastauksia mihinkään.

Tavallaan hyvä ja paremman oloinen kuin qwen mutta en taida keksiäkään käyttökohteita juuri tähän hätään, sen verran verkkaista vielä.

Toinen syy ollama innostukselle oli käännösten tekeminen, latasin googlen translate-gemma 16b version (kyllästyin hitaisiin vastauksiin aiemmilla 30b malleilla jotka eivät aivan mahdu 20gb ison kontekstin kanssa). Suomeksi käännetyt englannin ja kiinankieliset lauseet oli kyllä hämmästyttävän hyviä, ei täydellisiä - mutta ei ainakaan merkittävästi huonompia mitä chatgpt tekee hitaaseen tahtiin.
 
Kannattaa kokeilla uutta (n. viikon vanha) Qwen3-Coder-Next mallia, pitää ainoastaan osan mallista "kuumana", eli 80B mallin saa ei-niin-hitaaksi jopa 16GB kortilla. n. 30 tokenia, joka on jo ihan siedettävä paikalliselle mallille. Toki loppuosan pitää mahtua muistiin ja PCI-e 5:stä ei todellakaan ole haittaa.
Ehdottomasti paras lokaalimalli, jota olen tähän mennessä testannut.
 
5pv kesti saada tokenit limittiin. Nyt tuskailen päivittäisikö 200$/kk tilaukseen vai 2pv jotain muuta kuin agenttikoodausta.
1771008203423.png


OpenAI:lla tarjolla supernopea GPT-5.3-Codex-Spark koodausmalli kiitos cerebrasin wafer-scale kiihdyttimen. Cerebrasilla ei saa isoja malleja ajoon, mutta ajaa valonnopeasti pienempiä
Powered by the Cerebras Wafer-Scale Engine, it runs at over 1,000 tokens/s, enabling near-instant feedback in live coding environments.
 
5pv kesti saada tokenit limittiin. Nyt tuskailen päivittäisikö 200$/kk tilaukseen vai 2pv jotain muuta kuin agenttikoodausta.
Ota Codexin 20€ subi kylkeen, sillä saa enemmän aikaan kuin Claudella. Saattaa jopa tarjota ilmaista kuukautta, itselle sitä tyrkyttänyt jatkuvasti ja olen maksanut vain varmaan puolet ajasta.
 
Ota Codexin 20€ subi kylkeen, sillä saa enemmän aikaan kuin Claudella. Saattaa jopa tarjota ilmaista kuukautta, itselle sitä tyrkyttänyt jatkuvasti ja olen maksanut vain varmaan puolet ajasta.
Ei kiinnosta tällä erää. Jos jotain ottaisin niin enempi tokeneita claudeen tai sitten pitäisi vaihtaa kokonaan claudesta pois. Kitkaa tulee siitäkin, että mulla on claudessa noi kytkennät, että agentti osaa ajaa emulaattorissa, käyttää amiga spesifistä gdb-härveliä yms. Ei jaksa alkaa miettimään noiden säätöjä toiseen työkaluun.

Ei mulla ole ollut kyllä mitään ongelmia saada aikaiseksi claude code:lla. Upeasti tekee. Ihan tajuton määrä tavaraa 5pv aikana, eilenkin rallatti 16h :) Työkalut loopissa niin agentti debuggailee ongelmatkin itsekseen emulaattorissa.
 
Ei kiinnosta tällä erää. Jos jotain ottaisin niin enempi tokeneita claudeen tai sitten pitäisi vaihtaa kokonaan claudesta pois. Kitkaa tulee siitäkin, että mulla on claudessa noi kytkennät, että agentti osaa ajaa emulaattorissa, käyttää amiga spesifistä gdb-härveliä yms. Ei jaksa alkaa miettimään noiden säätöjä toiseen työkaluun.

Ei mulla ole ollut kyllä mitään ongelmia saada aikaiseksi claude code:lla. Upeasti tekee. Ihan tajuton määrä tavaraa 5pv aikana, eilenkin rallatti 16h :)
Ei se varmaan kovin iso homma olisi saada pelaamaan Codexilla. Suosittelen aina käyttämään kumpaakin, näkee sitten niiden vahvuudet ja saa hyödynnettyä subien käyttömäärät, tuo halvin tarjoaa varmaan satojen eurojen arvosta API-käyttöä.
 
Ei se varmaan kovin iso homma olisi saada pelaamaan Codexilla. Suosittelen aina käyttämään kumpaakin, näkee sitten niiden vahvuudet ja saa hyödynnettyä subien käyttömäärät, tuo halvin tarjoaa varmaan satojen eurojen arvosta API-käyttöä.
Ei mulla nyt ole oikeasti mitään syytä alkaa vaihtamaan kun olen tyytyväinen claudeen ja systeemit säädetty sen mukaan. Teen huvin vuoksi, kohta alkaa kalastuskausi ja koodaushommat loppuu 10kk ajaksi kokonaan. FIRE-hommia kun ei työkseen enää tarvi koodata loppuelämän aikana. Viime talvena oli openai, tän talven claude code, ens talvena katsellaan tilannetta uudestaan, että mikä systeemi käyttöön 2kk ajaksi.

Raha on vähemmän arvokasta kuin ajan hukkaaminen. Jos nyt tekis mieli saada enempi koodia aikaiseksi niin ennemmin maksan 100$/kk lisää claudesta ja saan 4x tokeneita versus että alan jumppaan halvan perässä ja haaskaamaan aikaa kun yksi agentti toimii yhdellä tapaa ja toinen toisella tapaa. Normiviikkona tuo 100$/kk tilaus riittäisi hyvin, mutta nyt ei saa juurikaan liikkua kun tyräleikkauksesta reilu viikko. Vähän saa kävellä ja muuten kökötän koneella. Ens viikolla saanee kontrollissa luvan jo enempi liikkua niin jää agentin paimentaminen vähemmälle. Toivottavasti parin viikon päästä sais jotain pinkkejä painojakin liikutella.
 
Viimeksi muokattu:

Uusimmat viestit

Statistiikka

Viestiketjuista
300 415
Viestejä
5 124 892
Jäsenet
81 810
Uusin jäsen
emcii

Hinta.fi

Back
Ylös Bottom