finWeazel
Tukijäsen
- Liittynyt
- 15.12.2019
- Viestejä
- 12 700
Kannattaa huomioida että benchmarkit eivät todellakaan kerro koko totuutta. Malleja voi optimoida bencharkkeihin, se mitä näkee benchmarkissa ei välttämättä yleisty benchmarkin ulkopuolelle. Tokeneiden hinta ja mallin nopeus myös merkityksellisiä.(vain yksi ihana osa näistä quoteista). Nämä "koska maksan, niin tämä on paras" keskustelut voisi jättää edes jonkinlaisen perustelun mielipiteilleen. Opus 4.5 ei varsinaisesti johda yhdessäkään koodaukseen liittyvässä benchmarkissa enää, sillä kun kyseisillä benchmarkeilla ikinä on ollut hirveästi väliäkään. Mutta ovat ne ainakin kaikkien markkinointimateriaalissa.
Cursorin vertailustakin GPT-5.2-Codex vs Opus 4.5 saa tällaisia:
SWE-bench Pro 56.4 50 Terminal-bench 2.0 64.0 59.3 ARC-AGI-2 54.2 39.3
Luvut ovat siis Antropicin tai OpenAI:n itse julkaisimia (ja ennen kuin sanot jotain SWE-Benchistä, niin tämä ei ole sama asia kuin se kevyempi versio jossa jokainen malli alkaa saamaan sen ~80%) joten jokainen tietysti voi uskoa mitä lukuja ainoastaan haluaa. Mutta näiden valossa Opus 4.5:n kutsuminen kingiksi on jo aika kyseenalaista, näissä benchmarkeissa se ei ainakaan enää pärjää. Mikäli se tuottaa jonkun mielestä maailman parhaan pelikaanin pyöräilemässä SVG:nä, niin ehkä se on siinä asiassa sitten parempi (mutta en muista Simonin vertailua näistä). Mutta missään valossa sen kutsuminen erityisesti edelläkävijäksi verrattuna muihin ei oikein mene läpi nykypäivänä.
Opuksen 200k context window on sinällään yksi vitsi tosin, sen puolustaminen on jo aika hankalaa. Se on todella pieni luku missään monimutkaisessa tilanteessa ja aiheuttaa aivan surkuhupaisia tilanteita valitettavasti, mikään kunnollinen malli ei saisi rajoittaa noin pieneen lukemaan. Se rajoittaa käyttökelpoisuutta missä tahansa tilanteessa jossa oikeasti tutkimista tarvitsisi.
Toinen puoli, että samakin malli voi toimia eri tavalla eri työkaluista käsin kun on eroja system promp:tssa, miten työkalu kasaa kontekstin, mitä mcp-servereitä käytössä jne. Jos käyttää jotain yleistä työkalua kuten cursor ai on triviaalia vaihdella eri malleja, toisaalta jos on päättänyt elää claude code tai openai codex:in agenttisysteemin kanssa niin kitkaa on enemmän jos haluaa vaihdella työkalusta toiseen.
--
Mun mielipide noihin X on paras niin ihan turhaa miettiä tuollaisia kun mallit päivittyvät koko ajan. En minä ainakaan alkaisi vaihtamaan työkalua 4-6vk välein kun aina tulee uusi parempi malli oli se sitten gemini, opus tai gpt. Pääasia imho. että ymmärtää suorituskykyä olevan saatavilla jos aukaisee lompakkoa oli sitten käytössä A, B tai C.