AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

finWeazel · tänään klo 20:13

burmanm sanoi:
(vain yksi ihana osa näistä quoteista). Nämä "koska maksan, niin tämä on paras" keskustelut voisi jättää edes jonkinlaisen perustelun mielipiteilleen. Opus 4.5 ei varsinaisesti johda yhdessäkään koodaukseen liittyvässä benchmarkissa enää, sillä kun kyseisillä benchmarkeilla ikinä on ollut hirveästi väliäkään. Mutta ovat ne ainakin kaikkien markkinointimateriaalissa.

Cursorin vertailustakin GPT-5.2-Codex vs Opus 4.5 saa tällaisia:

SWE-bench Pro 56.4 50
Terminal-bench 2.0 64.0 59.3
ARC-AGI-2 54.2 39.3

Luvut ovat siis Antropicin tai OpenAI:n itse julkaisimia (ja ennen kuin sanot jotain SWE-Benchistä, niin tämä ei ole sama asia kuin se kevyempi versio jossa jokainen malli alkaa saamaan sen ~80%) joten jokainen tietysti voi uskoa mitä lukuja ainoastaan haluaa. Mutta näiden valossa Opus 4.5:n kutsuminen kingiksi on jo aika kyseenalaista, näissä benchmarkeissa se ei ainakaan enää pärjää. Mikäli se tuottaa jonkun mielestä maailman parhaan pelikaanin pyöräilemässä SVG:nä, niin ehkä se on siinä asiassa sitten parempi (mutta en muista Simonin vertailua näistä). Mutta missään valossa sen kutsuminen erityisesti edelläkävijäksi verrattuna muihin ei oikein mene läpi nykypäivänä.

Opuksen 200k context window on sinällään yksi vitsi tosin, sen puolustaminen on jo aika hankalaa. Se on todella pieni luku missään monimutkaisessa tilanteessa ja aiheuttaa aivan surkuhupaisia tilanteita valitettavasti, mikään kunnollinen malli ei saisi rajoittaa noin pieneen lukemaan. Se rajoittaa käyttökelpoisuutta missä tahansa tilanteessa jossa oikeasti tutkimista tarvitsisi.

Kannattaa huomioida että benchmarkit eivät todellakaan kerro koko totuutta. Malleja voi optimoida bencharkkeihin, se mitä näkee benchmarkissa ei välttämättä yleisty benchmarkin ulkopuolelle. Tokeneiden hinta ja mallin nopeus myös merkityksellisiä.

Toinen puoli, että samakin malli voi toimia eri tavalla eri työkaluista käsin kun on eroja system promp:tssa, miten työkalu kasaa kontekstin, mitä mcp-servereitä käytössä jne. Jos käyttää jotain yleistä työkalua kuten cursor ai on triviaalia vaihdella eri malleja, toisaalta jos on päättänyt elää claude code tai openai codex:in agenttisysteemin kanssa niin kitkaa on enemmän jos haluaa vaihdella työkalusta toiseen.

--

Mun mielipide noihin X on paras niin ihan turhaa miettiä tuollaisia kun mallit päivittyvät koko ajan. En minä ainakaan alkaisi vaihtamaan työkalua 4-6vk välein kun aina tulee uusi parempi malli oli se sitten gemini, opus tai gpt. Pääasia imho. että ymmärtää suorituskykyä olevan saatavilla jos aukaisee lompakkoa oli sitten käytössä A, B tai C.

Sparky · tänään klo 20:33

Jos on oikeasti tarkoitus saada asioita aikaan, palaa tokeneita. Ja tokenit polttavat rahaa. Ei tässä ole ilmaista lounasta. En tiedä kuinka pieni juttu pitäisi olla, että ilmaiseksi saisi jotain tehtyä, en ole kokeillut, kun on tarkoitus tehdä töitä. Ehkä katsomuskantani on vähän erilainen kuin kotiharrastajalla, mene ja tiedä. Mutta näissä kolmessa suuressa (Claude/Gemini/ChatGPT) on jokaisessa omat hyvät ja huonot puolensa. Oma kokemus (ja monen YouTuben asiantuntijan) kertoo, että yleisellä tasolla Clauden Opus 4.5 on tällä hetkellä vahvin, Gemini 3 Pro hakkaa muut Frontend-kehityksessä ja ChatGPT/Codex on taas vahva esimerkiksi arkkitehtuurissa ja sparraajana (joskin aika verkkainen). Itse pidän Codexista juuri siinä, että se on aika tyly vs. Clauden miellyttävyyshalukkuus. Monesti paras lopputulos tulee jos noista pelaa jokaisen vahvuudella. Esimerkiksi Geminillä frontit, Claudella muut ja Codex katselmoi. Kokeilin tätä jossain projektissa nopeasti ja vaikutti hyvältä, mutta vaatisi vähän vielä hiomista. Ilmaiskäyttäjille tuossa olisi se hyvä puoli, että ei kuormita yhtä mallia liikaa.

burmanm · tänään klo 21:23

Sparky sanoi:
Jos olet perehtynyt asiaan, tiedät että benchmarkit ovat lähinnä viitteellisiä. Ja missä mallissa >200k konteksti-ikkuna oikeasti toimii? Ei ainakaan Geminissä...

Ei missään toimi isompi konteksti, sehän se ongelma onkin. Mutta ei se myöskään Opuksessa toimi ja sen pienuus rajoittaa siinä vielä enemmän. Kyseessä on kuitenkin vertailuluku, joka varjossa niiden vertailu kohtuu hyvin toimii.

burmanm · tänään klo 21:33

Sparky sanoi:
Jos on oikeasti tarkoitus saada asioita aikaan, palaa tokeneita. Ja tokenit polttavat rahaa. Ei tässä ole ilmaista lounasta.

Riippuu aivan siitä mitä tekee. Mikäli on näitä frontend-ihmisiä, niin kyllä - tokeneita palaa kun ihmiset käyttävät LLM:ää samoihin hommiin kuin entisiä templateja. Sen sijaan output-tokeneita harvemmin palaa kun kyseessä on työt, joissa käsitellään isompia olemassa olevia projekteja. Paitsi tietysti jos malli ei kykene käsittämään tilannetta (esim. juuri kontekstin loppuessa kesken) ja alkaa suoltamaan thinking-ajatteluaan aivan järjettömiä määriä. Tämä ihan siitäkin syystä, että loppujen lopuksi ajattelu ja lopullinen ratkaisu on kuitenkin ihmisen tekemään työtä, sille LLM:lle jää pohdittavaksi korkeintaan miten kirjoitan koodinpätkän lopulta.

Tässä mennään nyt jo liikaa siihen harrastaako töissään jotain mitä joku on jo tehnyt aikaisemmin (missä nämä ovat erittäin tehokkaita ja tuottavat nopeasti paljon koodia), vai hommia joissa mennään sille puolelle joka ei ole julkista tai ratkottua. Jälkimmäisissä tokeneita ei suinkaan pala ylettömän paljon, koska aikaa vaativat muutoksetkaan eivät välttämättä ole kovinkaan isoja. Ne vaativat paljon ajattelutyötä ja tarpeen siirtämistä mallille sopivaan muotoon, jota ei voi ulkoistaa yhdellekään mallille vielä.

Vai katsonko asiaa liikaa ei-harrastajan näkökulmasta? En jaksa mitään Youtube videoita katsella, kyllähän noita voi itsekin työnantajan piikkiin voinut käyttää jos tahtoo vain omia anekdoottejaan ja silloin mennään niin pienellä otannalla ettei sillä ole väliä. Benchmarkit ovat tietysti turhia monessa mielessä, mutta kummasti niihin halutaan viitata kun oma suosikki on se joka pärjää ja unohtaa heti kun joku toinen pärjää paremmin.

Sparky · tänään klo 22:07

En nyt oikein pääse kärryille, mitä edes mietit? Luuletko jotenkin, että jos teet jotain omaa "salaista" hommaa niin LLM ei käytä tokeneita niin paljoa? Jos teet jotain, mitä kukaan ei ole koskaan tehnyt aikaisemmin (mikä olisi aika uskomatonta) niin mitä ihmettä edes tekisit vääntämässä jossain foorumilla asiasta? Vai mikä tässä oli oikein pointtina?

AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

finWeazel

Sparky

burmanm

burmanm

Sparky

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi