Siinä on vain niin että myös AI on rajallinen resurssi. Miten paljon konesalikapasiteettia voidaan ja kannattaa kasvattaa? Kannattaako arvokasta kapasiteettia tyrkyttää ilmaiseksi kaikille kuten nyt tehdään?
Kapasiteettia rakennetaan niin paljon kuin muistipiirien saatavuus antaa myöten, uutta parempaa rautaa tulee vuosittain. Viime syksynä tuli gb300:en voluumiin millä treenattuja parempia malleja tulee alkuvuodesta. Alkusyksystä 2026 nvidian vera-rubin mikä on 10x nopeampi inferenssissä kuin gb300:en. Loppuvuodesta myös amd:n mi450:en jota openai on luvannut ostaa 2026 aikana 1GW edestä. Vera-rubin on täydessä tuotannossa, kerrottiin ces-messuilla.
Softapuolella optimoidaan myös mikä parantaa tehokkuutta. Mallien rakenne+taso+yksityiskohdat ja inferenssikoneistossa miten kuorma esim. jaetaan kontekstinluontiin ja tokeneiden generointiin. Agenttipuolella on mietitty hierarkisempia rakenteita missä olisi suunnittelu/arkkitehti joka käyttää erittäin raskasta ja osaavaa mallia taskien pureskeluun. Arkkitehti syöttää pureskellut ohjeet koodausagentille joka käyttää kevyempää ja halvempaa mallia. Paljon innovaatiota softapuolella tehty ja tulossa.
Toinen puoli miten voi miettiä, että piilaaksossa kesähessu maksaa 10ke/kk. On paljon firmoja joilla on varaa maksaa AI:sta paljonkin jos AI tuottaa rahaa vasten hyötyä, juniorit kärsivät tässä skenaariossa kun heille ei löydy töitä entiseen tapaan. Suomalainen perspektiivi toki eri kun työvoiman kustannus ihan jotain muuta kuin piilaaksossa eikä myöskään ole samanlaajuista startup-skeneä missä käytetään kaikki keinot nopeaan kasvuun ja VC rahaa riittää.
Vuosi sitten maksoi cursor ai järkevä tilaus 20e/kk, nyt se järkevä tilaus maksaa 200e/kk. Toki mallit ja rauta paranee niin hyvin voi olla, että 2026 oppuvuoden 20e/kk tilaus vastaa tämän päivän 200e/kk tilausta. Jossain firmassa joku devaaja voi upottaa tuhansia ja tuhansia avustimeen joka koodaa+testaa useilla agenteilla rinnakkain 24/7/365, tokenihinnoittelu. Vaatii toki sen, että rahaa vasten saa vastinetta eikä sekametelisoppaa.
Kuvassa Nvidian ennuste 2025&2026 mikä on ilmeisesti alakanttiin kun kysyntä ja tuotanto kasvanut. 20M gpu:ta joista viime syksynä oli shipattu 6 miljoonaa. Tuosta ei kannata suoraan skaalata suorituskykyä kun gb300 on 40% nopeampi kuin gb200 ja vera-rubin on huima loikka gb300:een verrattuna.
Tuohon päälle toki muiden tahojen raudat. Google tekee miljoonia ja miljoonia tpu-kiihdytimiä vuodessa, amd mi450 1GW openai:lle.