Tesla sai AI5-piirin valmiiksi

kalkkuna · eilen klo 15:17

Tässä säikeessä on paljon väärinkäsityksiä, jotka eivät pidä paikkaansa. Käytettävä laskentatarkkuus ei juurikaan vaikuta vaikkapa muistiväylien kokoon: pienemmillä laskentatarkkuuksilla matriisien koko vain vastaavasti kasvaa. Lisäksi useimmiten tensorien muistilayout on blokitettu niin, että aina vedetään tietty määrä muistista, esim. 32 tai 128 tavua. Eli, laskentatarkkuus ja muistiväylien koot ovat pääosin erillisiä asioita.

Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.

Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.

Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.

kalkkuna · eilen klo 15:26

Kaikki tämä keskustelu on kuitenkin teoreettista, koska AI5-piirin arkkitehtuuria ja speksejä ei ole julkistettu. Muisikaistan suhteen piiri on jossain 1 TB/s luokassa, joka on samaa tasoa RTX 5080 kanssa.

pomk · eilen klo 15:30

kalkkuna sanoi:
Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus.

Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.

Sinänsä on kyllä ihan totta että jonkun tietyn arkkitehtuurin verkko tietyssä koossa tietyllä raudalla rullaa yhtä nopeasti läpi oli sen käyttötarkoitus mitä tahansa.

finWeazel · eilen klo 15:32

kalkkuna sanoi:
Kaikki tämä keskustelu on kuitenkin teoreettista, koska AI5-piirin arkkitehtuuria ja speksejä ei ole julkistettu. Muisikaistan suhteen piiri on jossain 1 TB/s luokassa, joka on samaa tasoa RTX 5080 kanssa.

Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

kalkkuna · eilen klo 15:33

pomk sanoi:
Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.

Sinänsä on kyllä ihan totta että jonkun tietyn arkkitehtuurin verkko tietyssä koossa tietyllä raudalla rullaa yhtä nopeasti läpi oli sen käyttötarkoitus mitä tahansa.

Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

pomk · eilen klo 15:35

kalkkuna sanoi:
Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

Täysin samaa mieltä. Vaikea olis nyt arvata kolmen vuoden päähän että millaset laskentayksiköt kannattais laittaa. Siis vaikka olisi joku toimiva malli jollekkin nykyarkkitehtuurille toteutettuna, jonka haluaisi deployata jollekkin kustom raudalle.

Ala kehittyy valtavaa tahtia ja luulen että kiihtyy vielä.

kalkkuna · eilen klo 15:36

finWeazel sanoi:
Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

Jos katsotaan Nvidian uusinta robotiikkapiiriä, Jetson Thor:ia, niin sen tensorilaskenta tulee pääosin tensoriytimestä (UTCMMA), ei NVDLA:sta.

finWeazel · eilen klo 15:36

kalkkuna sanoi:
Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön. Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan. Todennäköisesti konesaliraudassa on jo ajossa isompaa mallia mikä ei mahdu nykyiseen hw4:een ja ajetaan sitten ai5:ssa. Asia on erilainen jos teet rautaa firmassa X ja yrität myydä sitä sitten firmoille a,b,c,d... Tesla ei ai5:sta aio myydä kenellekkään, menee vain heidän omiin roboihin, konesaleihin ja myöhemmin myös autoihin. Nvidia on juuri tämä taho joka yrittää myydä a,b,c,d firmoille jolloin heidän on pakko tehdä geneerinen ratkaisu toisin kuin teslan.

Linkki: https://www.youtube.com/watch?v=vsmQrDqMwcI

pomk · eilen klo 15:38

finWeazel sanoi:
Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön.

Kaistavahteja nyt on muiltakin valmistajilta.

Kattellaan sitten kun FSD saadaan markkinoille että mitä on jäljellä nykyisestä pinosta.

kalkkuna · eilen klo 15:41

finWeazel sanoi:
Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan.

Jos tietäisivät mitä tulevat ajamaan tulevaisuudessa, eiväthän he tarvitsisi tehdä 6 rautaversiota. Teslahan lupaili että auto on täysin autonominen, eikä tarvitse kuskia, jo melkein 10v sitten. Ei ole vielä tapahtunut...

Kaotik · eilen klo 15:45

pomk sanoi:
Kaistavahteja nyt on muiltakin valmistajilta.

Kattellaan sitten kun FSD saadaan markkinoille että mitä on jäljellä nykyisestä pinosta.

Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.

pomk · eilen klo 16:02

Kaotik sanoi:
Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.

Tason kaksi laite siinä missä kaistavahditkin.

Seppo77 · eilen klo 17:02

kalkkuna sanoi:
Tässä säikeessä on paljon väärinkäsityksiä, jotka eivät pidä paikkaansa. Käytettävä laskentatarkkuus ei juurikaan vaikuta vaikkapa muistiväylien kokoon: pienemmillä laskentatarkkuuksilla matriisien koko vain vastaavasti kasvaa. Lisäksi useimmiten tensorien muistilayout on blokitettu niin, että aina vedetään tietty määrä muistista, esim. 32 tai 128 tavua. Eli, laskentatarkkuus ja muistiväylien koot ovat pääosin erillisiä asioita.

Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.

Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.

Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.

Olet oikeassa siinä että tarkka verkko määrittää lopullisen laskentatarpen ja dataflown mutta siitä ei seuraa että rautaa ei voisi optimoida etukäteen. Käytännössä optimoidaan laskentaluokalle (dense tensor compute, memory/latency -rajoitteet) jonka sisällä eri arkkitehtuurit elävät ja juuri siksi sama rauta pystyy ajamaan CNN, ViT ja ConvNext-tyyppisiä malleja ilman että se on “vanhentunut syntyessään”.

kalkkuna · eilen klo 17:07

Seppo77 sanoi:
Olet oikeassa siinä että tarkka verkko määrittää lopullisen laskentatarpen ja dataflown mutta siitä ei seuraa että rautaa ei voisi optimoida etukäteen. Käytännössä optimoidaan laskentaluokalle (dense tensor compute, memory/latency -rajoitteet) jonka sisällä eri arkkitehtuurit elävät ja juuri siksi sama rauta pystyy ajamaan CNN, ViT ja ConvNext-tyyppisiä malleja ilman että se on “vanhentunut syntyessään”.

Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.

Eli se, että "tehdään rauta täsmälleen siihen tarpeeseen mitä nyt on", on fundamentaalisesti ristiriidassa sen kanssa, että "rakennetaan rauta jolla voi ajaa erilaisia verkkoja".

Toki ei pystytä sanomaan mihin tämä piiri edes sijoittuu tässä, kun arkkitehtuuri ei ole julkinen.

Seppo77 · eilen klo 17:11

kalkkuna sanoi:
Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.

Eli se, että "tehdään rauta täsmälleen siihen tarpeeseen mitä nyt on", on fundamentaalisesti ristiriidassa sen kanssa, että "rakennetaan rauta jolla voi ajaa erilaisia verkkoja".

Toki ei pystytä sanomaan mihin tämä piiri edes sijoittuu tässä, kun arkkitehtuuri ei ole julkinen.

Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

pomk · eilen klo 17:13

Seppo77 sanoi:
Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?

kalkkuna · eilen klo 17:15

Seppo77 sanoi:
Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.

Kaotik · eilen klo 17:16

pomk sanoi:
Tason kaksi laite siinä missä kaistavahditkin.

Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.

Seppo77 · eilen klo 17:16

pomk sanoi:
Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?

Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.

Seppo77 · eilen klo 17:21

kalkkuna sanoi:
Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.

Ymmärrän pointin mutta tuo ei mene suoraan “yleinen on yhtäkuin GPU”. Käytännössä modernit AI-kiihdytimet rajaavat laskennan tensorioperatioihin mikä antaa tehokkuuden mutta jättävät tarpeeksi joustoa eri arkkitehtuureille eli ne eivät ole GPU:ita vaan välimuoto joka on edellen tehokkaampi tälle workloadille.

pomk · eilen klo 17:28

Kaotik sanoi:
Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.

Kaistavahti joka esim. samalla toimii vakionopeudensäätimenä on tason 2 laite. Näitä on maailma pullollaan.

Teslan kaistavahti toki kuvittelee osaavansa tehdä enemmänkin, mutta voi jatkuvasti tehdä virheitä ja ei ole yhtään luotettavampi laitteena.

Tasoon 3 on pitkä tie, muista puhumattakaan.

Seppo77 sanoi:
Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.

Voisitko lopettaa tämän ai geneeoidun paskan suoltamisen tänne?

Jos mikä vaan ai laskenta on samaa laskentaluokkaa, niin miten se mukamas ajaa jotain piirikehitystä mihinkään suuntaan. Tässä sinun välittämässä grok-hölynpölyssä ei ole mitään tolkkua.

kalkkuna · eilen klo 17:30

Seppo77 sanoi:
Ymmärrän pointin mutta tuo ei mene suoraan “yleinen on yhtäkuin GPU”. Käytännössä modernit AI-kiihdytimet rajaavat laskennan tensorioperatioihin mikä antaa tehokkuuden mutta jättävät tarpeeksi joustoa eri arkkitehtuureille eli ne eivät ole GPU:ita vaan välimuoto joka on edellen tehokkaampi tälle workloadille.

Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.

Se, kuinka paljon näitä yksiköitä pitää olla, taas riippuu verkosta, ei pelkästään arkkitehtuurista vaan myös koosta. Jos kanavien määrä on isompi, tarvitaan enemmän MMA-throughputia kuin vaikkapa aktivaatioiden vaatimaa SFU-throughputia. Joten tässä tulee taas se ongelma, että joko teet "turhaa" yhdelle mallille, tai hidastat kaikkia muita kuin sitä yhtä mallia.

Seppo77 · eilen klo 17:32

pomk sanoi:
Jos mikä vaan ai laskenta on samaa laskentaluokkaa, niin miten se mukamas ajaa jotain piirikehitystä mihinkään suuntaan. Tässä sinun välittämässä grok-hölynpölyssä ei ole mitään tolkkua.

Sama "laskentaluokka” ei tarkoita että kaikki on samaa vaan että tiedetän riittävästi kuormasta tensorilaskenta, memory/latency-profiili, rinnakkaisuus jotta voidaan tehdä arkkitehtuuripäätöksiä ja se e ohjaa rautaa compute/memory-suhteeseen, muistihierarkiaan, rinnakaisuuteen ja datapathiin vaikka yksittäinen malli ei ole tiedossa.

Seppo77 · eilen klo 17:36

kalkkuna sanoi:
Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.

Se, kuinka paljon näitä yksiköitä pitää olla, taas riippuu verkosta, ei pelkästään arkkitehtuurista vaan myös koosta. Jos kanavien määrä on isompi, tarvitaan enemmän MMA-throughputia kuin vaikkapa aktivaatioiden vaatimaa SFU-throughputia. Joten tässä tulee taas se ongelma, että joko teet "turhaa" yhdelle mallille, tai hidastat kaikkia muita kuin sitä yhtä mallia.

Olet oikeassa siinä että eri verkot muuttavat yksiköiden optimaalista suhdetta mutta siitä ei seuraa että mitän ei voisi mitoittaa ilman yhtä mallia koska käytännössä tiedetään jo etukäteen että tensorilaskenta dominoi ja muu on tukikuormaa ja tämän perusteella arkkitehturi voidaan mitoittaa riittävän oikein useille malleille. Tämä ei ole optimaalinen yhdelle mutta ei myöskään huono kaikille muille vaan kompromissi joka toimii koko laskentaluokassa.

pomk · eilen klo 17:54

@Kaotik onko tää grok copy-paste kama mitä tänne jatkuvasti suolletaan foorumin sääntöjen mukaista toimintaa?

Seppo77 sanoi:
Sama "laskentaluokka” ei tarkoita että kaikki on samaa vaan että tiedetän riittävästi kuormasta tensorilaskenta, memory/latency-profiili, rinnakkaisuus jotta voidaan tehdä arkkitehtuuripäätöksiä ja se e ohjaa rautaa compute/memory-suhteeseen, muistihierarkiaan, rinnakaisuuteen ja datapathiin vaikka yksittäinen malli ei ole tiedossa.

Piirrä vaikka joku diagrammi seuraavaksi, jos vaikka lopulta ymmärrettäisiin jotain näistä grokin hallusinaatioista.

Owern · eilen klo 23:21

finWeazel sanoi:
Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

Jos Gemini on koulutettu ja Athropic mallit isolta osin Googlen TPU. Niin mihin sitä GPU:ta siis tarvii. Joo siinä on etunsa, mutta jos se syö 50 % pinta alaa vaikka tai on 10 kertaa hiitaampi kun en tiedä onko nuo yrityskohtaiset laskentapiirit asic, mutta ei vaikuta, että GPU on pakollinen, jos 50 % top 3 malleista on koulutettu Googlen TPU.

Owern · 53 minuuttia sitten

Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.

finWeazel · 46 minuuttia sitten

Owern sanoi:
Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.

Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta versus fp8 missä aika silti kuukausia. Selektiivisesti osa mallista jää isompaan tarkkuuteen, ei pelkkää nvfp4/mxfp4:sta.

Owern · 36 minuuttia sitten

finWeazel sanoi:
Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta missä aika silti kuukausia.

Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee koulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.

Tuskin se mahdoton ajatus on noit, että noita mataliakin tarkuuksia voisi käytää koulutukseenkin. Mutta omaa tietämystä tuosta ei ole.

Jostain luin, että NVFP4 om paljon parempi kuin mxfp4

finWeazel · 29 minuuttia sitten

Owern sanoi:
Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee keulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.

Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.

Se motivaatio kun on x-miljardien konesali ja voit saada etua kilpailijaan verrattuna jos sun pre training kestää 2kk kun kaverilla menee 4kk tai jollain fp16 hermannilla 8kk. Aika on kirjaimellisesti rahaa. GB300:en mitä alettiin asentamaan viime syksynä konesaliin toi 40% enempi nvfp4 suorituskykyä versus gb200.

Owern · 19 minuuttia sitten

finWeazel sanoi:
Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.

Se motivaatio kun on x-miljardien konesali ja voit saada etua kilpailijaan verrattuna jos sun pre training kestää 2kk kun kaverilla menee 4kk tai jollain fp16 hermannilla 8kk. Aika on kirjaimellisesti rahaa. GB300:en mitä alettiin asentamaan viime syksynä konesaliin toi 40% enempi nvfp4 suorituskykyä versus gb200.

Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä (etenkin Nvidialle).

Kyllä, Gemini on oikeassa – lähes kaikki nykyiset frontier-mallit on (tai on ollut) koulutettu bf16-precisionilla (tarkemmin mixed-precision-koulutuksessa, jossa bf16 on pääasiallinen laskentatarkkuus).⁠Huggingface

bf16 (bfloat16) on ollut de facto -standardi LLM-koulutuksessa jo useita vuosia, koska se tarjoaa saman dynaamisen alueen kuin fp32 mutta puolittaa muistin ja nopeuttaa laskentaa merkittävästi (erityisesti H100/B200/TPU-kiihdyttimillä). Se korvasi fp16:n, koska fp16 oli epävakaampi suurissa malleissa.⁠Weirdfishes.substack

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Meta Llama 3 / Llama 3.1 → Koulutettu bf16:lla (virallisesti dokumentoitu Meta:n papereissa ja Hugging Face -malleissa).⁠Medium
Google Gemini → Google käyttää TPUs:ia, joissa bf16 on natiivi formaatti jo vuosia – kaikki Gemini-mallit perustuvat siihen.⁠Cloud.google
Useimmat muut frontier-mallit (Claude-sarja, GPT-4/o-sarja, Grok jne.) → Suljetut mallit eivät julkaise tarkkoja teknisiä raportteja, mutta alan konsensus ja hardware-tuki (A100/H100/B200) tekevät bf16:sta käytännössä ainoan järkevän vaihtoehdon vakaudelle.⁠LinkedIn

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Llama 4 → Meta siirtyi FP8:aan (uudempi, vielä matalampi tarkkuus).⁠News.ycombinator
DeepSeek-V3/R1 → Ensimmäinen iso avoin malli, joka käytti FP8 mixed-precisionia (custom-optimoinneilla).⁠Research.colfax-intl

Nämä ovat kuitenkin uusia poikkeuksia vuoden 2025 lopulta/2026 alusta. FP8 on vielä “emerging” – se ei ole vielä korvannut bf16:ta laajasti, koska se vaatii paljon enemmän hienosäätöä stabiiliuden takaamiseksi. Epoch AI:n analyysin mukaan bf16 on ollut adoption-käyrän loppusuoralla, ja FP8:sta odotetaan vasta ~2028 standardia.⁠Epoch

Yhteenveto: Gemini puhuu täysin oikein. bf16 on edelleen se formaatti, jolla lähes kaikki frontier-mallit (erityisesti suljetut huippumallit) on koulutettu. FP8 on tulossa, mutta ei vielä vallannut alaa. Jos joku malli käyttää jotain muuta, se on poikkeus, ei sääntö.

finWeazel · 15 minuuttia sitten

Owern sanoi:
Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä.

Kyllä, Gemini on oikeassa – lähes kaikki nykyiset frontier-mallit on (tai on ollut) koulutettu bf16-precisionilla (tarkemmin mixed-precision-koulutuksessa, jossa bf16 on pääasiallinen laskentatarkkuus).⁠Huggingface

bf16 (bfloat16) on ollut de facto -standardi LLM-koulutuksessa jo useita vuosia, koska se tarjoaa saman dynaamisen alueen kuin fp32 mutta puolittaa muistin ja nopeuttaa laskentaa merkittävästi (erityisesti H100/B200/TPU-kiihdyttimillä). Se korvasi fp16:n, koska fp16 oli epävakaampi suurissa malleissa.⁠Weirdfishes.substack

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Meta Llama 3 / Llama 3.1 → Koulutettu bf16:lla (virallisesti dokumentoitu Meta:n papereissa ja Hugging Face -malleissa).⁠Medium

Google Gemini → Google käyttää TPUs:ia, joissa bf16 on natiivi formaatti jo vuosia – kaikki Gemini-mallit perustuvat siihen.⁠Cloud.google

Useimmat muut frontier-mallit (Claude-sarja, GPT-4/o-sarja, Grok jne.) → Suljetut mallit eivät julkaise tarkkoja teknisiä raportteja, mutta alan konsensus ja hardware-tuki (A100/H100/B200) tekevät bf16:sta käytännössä ainoan järkevän vaihtoehdon vakaudelle.⁠LinkedIn

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Llama 4 → Meta siirtyi FP8:aan (uudempi, vielä matalampi tarkkuus).⁠News.ycombinator

DeepSeek-V3/R1 → Ensimmäinen iso avoin malli, joka käytti FP8 mixed-precisionia (custom-optimoinneilla).⁠Research.colfax-intl

Nämä ovat kuitenkin uusia poikkeuksia vuoden 2025 lopulta/2026 alusta. FP8 on vielä “emerging” – se ei ole vielä korvannut bf16:ta laajasti, koska se vaatii paljon enemmän hienosäätöä stabiiliuden takaamiseksi. Epoch AI:n analyysin mukaan bf16 on ollut adoption-käyrän loppusuoralla, ja FP8:sta odotetaan vasta ~2028 standardia.⁠Epoch

Yhteenveto: Gemini puhuu täysin oikein. bf16 on edelleen se formaatti, jolla lähes kaikki frontier-mallit (erityisesti suljetut huippumallit) on koulutettu. FP8 on tulossa, mutta ei vielä vallannut alaa. Jos joku malli käyttää jotain muuta, se on poikkeus, ei sääntö.

NVFP4/mxfp4 lienee sen verta uusi juttu ettei ollut esim. llama4:en opettaminen sillä realistisesti mahdollista, h200 ei tue nvfp4/mxfp4. nvfp4:een varmaan siirrytty vielä julkaisemattomissa malleissa mitä tulee tänä keväänä/kesällä ulos (gb300:lla opetettuja, viime syksynä alkanut asennukset konesaleihin). Ekat nvfp4:lla opetetut mallit tullut nvidialta ulos alkuvuodesta ja nvidia lienee ihan keihäänkärkenä tässä. OpenAI ja meta seurannee perästä. Anthropic ja google eivät käytä nvidiaa omien malliensa opettamiseen. Xai: jonka iden uusin isoin malli varmistettu olevan 10biljoonaa parametria ja käyttää nvidiaa, ei vielä julkaistu grok5:sta. Yllätyn jos ei grok5:en opettamisessa ole käytetty ainakin jossain opetusvaiheessa nvfp4:sta.

Tesla sai AI5-piirin valmiiksi

Banhammer

Banhammer

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):​

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):​

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):​

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):​

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):