Tesla sai AI5-piirin valmiiksi

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
25 021
Tesla on saanut valmiiksi itse kehittämänsä AI5-piirin. AI5:n on tarkoitus pyörittää tekoälytehtäviä Teslan autoissa. AI5 on jatkoa aiemmin HW- eli Hardware-sarjana tunnetuille piireille.

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/elonmusk/status/2044315118583066738


Elon Musk kiitti twiitissä piirin mahdollistamisesta sekä TSMC:tä että Samsungia, mikä selittyy sillä, että tiettävästi samaa piiriä tehdään kummankin valmistajan toimesta. Samsung valmistaa AI5-piirejä Texasissa ja TSMC Arizonassa. Muskin mukaan AI5-siru on noin puolet valmistusprosessin mahdollistamasta koosta (half the reticle size).

Itse AI5-piirin ohella samasta paketoinnista löytyy yhteensä 12 SK Hynixin muistipiiriä. TechPowerUpin mukaan ne olisivat LPDDR5X-piirejä, kun Tom's Hardware epäilee niiden olevan GDDR6- tai GDDR7-piirejä.
 
Viimeksi muokattu:
No ainakin Musk aikoo laittaa tosissaan lisää inferenssitehoa autoon jos vaihtaa tuollaiseen... Ei ole myöskään ihan halpa paketti.

Eikö noilla osanumeroilla muka löydy muistia suoraan jostain kuvastosta? Ovat kyllä sen verran muhjuisia että vaikea lukea tarkkaa koodia. Tämä tulee myös syömään sähköä ihan tosissaan.
 
Jos haluaisi yhtä järeän laskentakortin nvidialta, niin se maksaisi teslan auton verran. Mihin näitä olikaan tarkoitus oikein asennella?
 
Ovat kyllä sen verran muhjuisia että vaikea lukea tarkkaa koodia.
pino.png

Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva? :comp:
 
pino.png

Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva? :comp:
Gemini pro:n mielipide:

1776313620350.png
 
Jos haluaisi yhtä järeän laskentakortin nvidialta, niin se maksaisi teslan auton verran. Mihin näitä olikaan tarkoitus oikein asennella?
Ei voi verrata noin. Nvidia H100 on yleiskäyttöinen AI-Superpiiri eli erittäin monipuolinen monenlaiseen eri asiaan ja silti tehokkaasti vieläpä. Tesla AI5 on vain autopilot/FSD käyttöön eli aivan jumalattomasti yksinkertaisempi piiri. Kun tuo piiri on yhteen käytöttarkoitukseen niin sen optimointi on voitu myös tehdä ihan eri luokalla joka vaikuttanee paljon myös.
 
Ei voi verrata noin. Nvidia H100 on yleiskäyttöinen AI-Superpiiri eli erittäin monipuolinen monenlaiseen eri asiaan ja silti tehokkaasti vieläpä. Tesla AI5 on vain autopilot/FSD käyttöön eli aivan jumalattomasti yksinkertaisempi piiri. Kun tuo piiri on yhteen käytöttarkoitukseen niin sen optimointi on voitu myös tehdä ihan eri luokalla joka vaikuttanee paljon myös.
Mitä tarkoitat? Näitä on Musk ainaki twitterissä kehunut käytettävän vaikka missä.

Lisäksi se FSD homma on jotain tensor laskentaa siinä missä kaikki muukin tensor laskenta. Ilman todistusaineistoa on ihan humpuukia väittää että nämä tensor ytimet tietäisivät tekevänsä FSD laskentaa ja sen perusteella päättäisivät toimia nopeammin.
 
pino.png

Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva? :comp:
Ennen stäkkäystäkin väittäisin että alkaa D:llä tai B:llä...
 
Tuleeko nämä nykyisten Ryzenien rinnalle vai niiden tilalle? Tesla on kyllä siitä mielenkiintoinen, että autossa on laskentatehoa enemmän, mitä monen tietokoneessa. Sinällään viisas ratkaisu, kun se mahdollistaa tulevat päivitykset ilman kompromisseja.
 
Mitä tarkoitat? Näitä on Musk ainaki twitterissä kehunut käytettävän vaikka missä.

Lisäksi se FSD homma on jotain tensor laskentaa siinä missä kaikki muukin tensor laskenta. Ilman todistusaineistoa on ihan humpuukia väittää että nämä tensor ytimet tietäisivät tekevänsä FSD laskentaa ja sen perusteella päättäisivät toimia nopeammin.
No erona vaikka se, että nvidian piiri tukee ~kaikkia laskentatarkuuksia vähintään jollain tavalla + sen muistiohjaimen tulee toimia hyvin kaikilla mahdollisilla käyttötavoilla jne.

Jos vaikka tesla on päättänyt optimoida inferenssin float8:lle tai float6:selle tai int4:lle, niin se on voinut suunnitella fyysisesti laskentayksiköt laskemaan vain oikean bittimäärin lukuja ja muistiohjaimet on voitu optimoida hakemaan juuri sopivat määrät dataa ja oikealla tahdilla jne. Nvidiassa on myös kaikenlaisia virtualisointi + tenant-isolation härdelleitä jne jotka ovat turhia tälläiselle tasan yhden käytön yhdessä autossa yhtä AI-mallia ajavalle piirille. Kaikkien turhien ominaisuuksien poisto säästää transistoreita ja mahdollistaa niiden käyttämisen vain siihen mitä tesla tarvitsee omassa käytössään.
--
Tälläinen täysin räätälöity piiri tarjoaa varmasti paremman energiahyötysuhteen + suorituskyvyn per transistori kun sillä ajetaan malleja joita varten se on erikseen optimoitu.
 
Tuleeko nämä nykyisten Ryzenien rinnalle vai niiden tilalle? Tesla on kyllä siitä mielenkiintoinen, että autossa on laskentatehoa enemmän, mitä monen tietokoneessa. Sinällään viisas ratkaisu, kun se mahdollistaa tulevat päivitykset ilman kompromisseja.
Ei kai, Ryzenithän on infotainment hommissa
 
Jos vaikka tesla on päättänyt optimoida inferenssin float8:lle tai float6:selle tai int4:lle, niin se on voinut suunnitella fyysisesti laskentayksiköt laskemaan vain oikean bittimäärin lukuja ja muistiohjaimet on voitu optimoida hakemaan juuri sopivat määrät dataa ja oikealla tahdilla jne.
Onko nämä teslan laskimet siis kykeneviä laskemaan vain jollain tarkkuudella? Vai onko kyse mutusta?
Nvidiassa on myös kaikenlaisia virtualisointi + tenant-isolation härdelleitä jne jotka ovat turhia tälläiselle tasan yhden käytön yhdessä autossa yhtä AI-mallia ajavalle piirille.
Nuo ovat häviävän pieni osa piiriä. Lisäksi tosiaan musk on twitterissä maininnut että näitä käytetään muuallakin kuin autoissa, ja että nämä eivät ole vaatimus FSD:lle vanhoissa autoissa.

Liekö tämä FSD AI-mallikaan valmis? Ja jos se kerran ei ole, niin miten jollekkin jota ei ole vielä olemassakaan voidaan mukamas tehdä optimoitu siru?
 
Kait nämä nyt robotteihin pääsääntöisesti ovat tulossa? Eikös se pitänyt olla se seuraava kultakaivos ja nämä kelpaavat autoihin vain fsd tilauksille korkeintaan.
 
Onko nämä teslan laskimet siis kykeneviä laskemaan vain jollain tarkkuudella? Vai onko kyse mutusta?

Nuo ovat häviävän pieni osa piiriä. Lisäksi tosiaan musk on twitterissä maininnut että näitä käytetään muuallakin kuin autoissa, ja että nämä eivät ole vaatimus FSD:lle vanhoissa autoissa.

Liekö tämä FSD AI-mallikaan valmis? Ja jos se kerran ei ole, niin miten jollekkin jota ei ole vielä olemassakaan voidaan mukamas tehdä optimoitu siru?

EI ole vain yhdelle vaan muutamaa valittua tarkkuutta (esim. INT8 + FP16 tyyppiset) mutta ei myöskään yhtä joustava kuin Nvidia joka tukee FP32, FP16, BF16, INT8, INT4 jne. koska tarkoitus nVidian piirissä on toimia kaikessa mahdollisessa.
Tarkkuus (precision) on yksi suurimmista suorituskykytekijöistä piireissä AI:ssa eikä todellakaan pieni osa saati häviävän pieniosa piiriä. Vaikuttaa suoraan esim. nopeuteen, virrankulutukseen, muistin käyttöön...

Vaikka malli ei ole täysin vlamis vielä niin ei Tesla tietämätön ole kun sillä on kuitenkin tärkeimmät eli neuroverkkotyypit, tensorikoot, datavirrat, kamerainputit, inference pipeline tiedossa ja rakenne tuon tiedon jälkeen pysyy melko samana loppuun.

Eri asia että Tesla käyttää piiriä myös training clusterissa ja inference servereissä verrattuna tosiaan tuohon nVidian käytännössä mihin vaan AI- hommaan.

Vanhemmat HW3 autot pyörittää FSD:tä mutta rajoitetummin.
 
Elon Musk on mainostanut, että teslan etu verrattuna nvidiaan/geneeriseen on, että he ovat suunnitelleet AI5 piirin juuri siihen mitä tarvivat ja kaikelle ylimääräiselle painettu deleteä. Ts. rauta suunniteltu&optimoitu teslan softapinon käyttöön. Tästä oli juttua viime syksynä. Google löytää, muskin twiitit missä oli tarkemmin kerrottu mille asioille painettu delete nappia, ylätason summarointi linkissä

Musk emphasized that Tesla’s focus on designing for a single customer gives it a massive advantage in simplicity and optimization. “NVIDIA… (has to) satisfy a large range of requirements from many customers. Tesla only has to satisfy one customer, Tesla,” he said. This, Musk stressed, allows Tesla to delete unnecessary complexity and deliver what could be the best performance per watt and per dollar in the industry once AI5 production scales

Ilmeisesti menossa robotteihin ja konesaleihin AI5 piiri aluksi. Autoihin myöhemmin.
1776335882026.png
 
Tarkkuus (precision) on yksi suurimmista suorituskykytekijöistä piireissä AI:ssa eikä todellakaan pieni osa saati häviävän pieniosa piiriä. Vaikuttaa suoraan esim. nopeuteen, virrankulutukseen, muistin käyttöön...
Taisit lukea väärin että mihin tuo tekstini viittasi.
EI ole vain yhdelle vaan muutamaa valittua tarkkuutta (esim. INT8 + FP16 tyyppiset) mutta ei myöskään yhtä joustava kuin Nvidia joka tukee FP32, FP16, BF16, INT8, INT4 jne. koska tarkoitus nVidian piirissä on toimia kaikessa mahdollisessa.
Mitkä on nämä valitut tarkkuudet ja saadaanko niillä tosiaan suurempi nopeus kuin nvidia + int4 tms?
Vaikka malli ei ole täysin vlamis vielä niin ei Tesla tietämätön ole kun sillä on kuitenkin tärkeimmät eli neuroverkkotyypit, tensorikoot, datavirrat, kamerainputit, inference pipeline tiedossa ja rakenne tuon tiedon jälkeen pysyy melko samana loppuun.
Onko noita mitään siis lyöty lukkoon siten että voitaisiin piiri mitoittaa hyvin lopulliseen malliin nähden?

Vaikea uskoa että olisi.
Eri asia että Tesla käyttää piiriä myös training clusterissa ja inference servereissä verrattuna tosiaan tuohon nVidian käytännössä mihin vaan AI- hommaan.
Luitko jo että mihin kaikkeen tuota oli kaavailtu? Miten kuvittelet että noin laajalla skaalalla tuotteita ja käyttökohteita saataisiin mitään etua siitä että tuote on viritetty nimenomaan vain tuohon käyttötarkoitusten osajoukkoon?
Vanhemmat HW3 autot pyörittää FSD:tä mutta rajoitetummin.
Ei pyöritä lainkaan, ainakaan vielä.
Kaistavahti (eli FSD supervised) taitaa toimia.
Elon Musk on mainostanut, että teslan etu verrattuna nvidiaan/geneeriseen on, että he ovat suunnitelleet AI5 piirin juuri siihen mitä tarvivat ja kaikelle ylimääräiselle painettu deleteä. Ts. rauta suunniteltu&optimoitu teslan softapinon käyttöön. Tästä oli juttua viime syksynä. Google löytää, muskin twiitit missä oli tarkemmin kerrottu mille asioille painettu delete nappia, ylätason summarointi linkissä



Ilmeisesti menossa robotteihin ja konesaleihin AI5 piiri aluksi. Autoihin myöhemmin.
1776335882026.png
Ilman lukuja nää Muskin hallusinaatiot on pelkkää hölynpölyä.
 
Taisit lukea väärin että mihin tuo tekstini viittasi.

Mitkä on nämä valitut tarkkuudet ja saadaanko niillä tosiaan suurempi nopeus kuin nvidia + int4 tms?

Tarkkoja formaatteja Tesla ei ole täysin julkistanut (varsinkaan AI5:stä), mutta aiemmista tiedetään suunta Tesla HW3/HW4 jossa pääpaino INT8 + osin FP16/FP32 ja uudemmissa todennäköisesti mukana myös alemmat tarkkuudet (INT4/FP8-tyyppiset). Koko datapolku on optimoitu juuri näille tarkkuuksille eism. muistiväylät juuri siihen bittileveyteen, välimuistit juuri oikeaan kokoon, laskentayksiköt ilman “turhaa yleislogiikkaa” joten voi olla nopeampi kuin Nvidia. Kyse ei ole siitä kuitenknaan lopulta tukeeko Nvidia samaa tarkkuutta vaan siitä että Teslalla koko arkkitehtuuri on rakennettu vain muutamalle tarkkuudelle ilman yleiskäyttöisen GPU:n overheadia.
Onko noita mitään siis lyöty lukkoon siten että voitaisiin piiri mitoittaa hyvin lopulliseen malliin nähden?

Vaikea uskoa että olisi.

Mallin yksityiskohdat muuttuvat mutta datavirta, tensorikoot ja latency-vaatimukset ovat tiedossa jo vuosia etukäteen. Piiri mitoitetaan niihin ei yksittäiseen malliversioon.
Luitko jo että mihin kaikkeen tuota oli kaavailtu? Miten kuvittelet että noin laajalla skaalalla tuotteita ja käyttökohteita saataisiin mitään etua siitä että tuote on viritetty nimenomaan vain tuohon käyttötarkoitusten osajoukkoon?

Käyttökohteita on useita mutta ne kaiki ajavat samaa Tesla AI -pipelinea joka ei ole yleiskäyttöinen AI-piiri kuten Nvidia vaan yhden ongelma-alueen piiri eri ympäristöissä.
Ei pyöritä lainkaan, ainakaan vielä.
Kaistavahti (eli FSD supervised) taitaa toimia.

Ilman lukuja nää Muskin hallusinaatiot on pelkkää hölynpölyä.

HW3 pyörittää nykyistä FSD supervised -versiota mutta uudemmat mallit ja kapasiteetti on selvästi suunnattu uudelle raudalle.


Eli siis Tesla ei yritä tehdä yleiskäyttöistä AI-piiriä kuten Nvidia vaan optimoida koko arkkitehtuurin yhdelle datavirralle ja muutamalle tarkkuudelle. Siksi se voi olla tehokkaampi siinä käytössä vaikka Nvidia tukee enemmän formaatteja. Mallia ei tarvitse tietää täysin valmiiksi koska laskennan rakenne ja datavirrat ovat jo tiedossa.
 
Tarkkoja formaatteja Tesla ei ole täysin julkistanut (varsinkaan AI5:stä), mutta aiemmista tiedetään suunta Tesla HW3/HW4 jossa pääpaino INT8 + osin FP16/FP32 ja uudemmissa todennäköisesti mukana myös alemmat tarkkuudet (INT4/FP8-tyyppiset). Koko datapolku on optimoitu juuri näille tarkkuuksille eism. muistiväylät juuri siihen bittileveyteen, välimuistit juuri oikeaan kokoon, laskentayksiköt ilman “turhaa yleislogiikkaa” joten voi olla nopeampi kuin Nvidia. Kyse ei ole siitä kuitenknaan lopulta tukeeko Nvidia samaa tarkkuutta vaan siitä että Teslalla koko arkkitehtuuri on rakennettu vain muutamalle tarkkuudelle ilman yleiskäyttöisen GPU:n overheadia.
Ja samalla sitten pakotetaan laskemaan korkeammalla tarkkuudella ja hitaammin kuin mitä vaikka nvidian korteilla voisi. Muutenkin vähän hassua vetää näitä HW 1-2-3-4 mukaan kun nämä laitteet ei väitetysti ole tulossa autoihin.
Mallin yksityiskohdat muuttuvat mutta datavirta, tensorikoot ja latency-vaatimukset ovat tiedossa jo vuosia etukäteen. Piiri mitoitetaan niihin ei yksittäiseen malliversioon.
Miten se tapahtuu? Mikä on latency-vaatimus (eli suomeksi varmaan maksimiviive?) grokin vastaukselle? Datavirratkin on varmaan suuri mysteeri, kun optimus robosta tuskin on edes ekaa tuotantomallia lyöty lukkoon raudan suhteen.

Mitä tarkoitat sillä että tensorikokovaatimus on ollut tiedossa jo vuosia? Tässä on 100% varmuudella maksimimäärä tensoreita mitä muskin riskinottokyky kestää ja sitten toivotaan että viiden vuoden päästä kehitetty malli toimii sillä lopulta riittävän nopeasti robotaxia tms. varten.
Käyttökohteita on useita mutta ne kaiki ajavat samaa Tesla AI -pipelinea joka ei ole yleiskäyttöinen AI-piiri kuten Nvidia vaan yhden ongelma-alueen piiri eri ympäristöissä.
Onko siellä datacenttereissäkin minne näitä pääasiallisesti varmaan laitetaan siis jotain autonomista ajelua? Vai onko joku grok samaa ongelma-aluetta kuin FSD?
HW3 pyörittää nykyistä FSD supervised -versiota mutta uudemmat mallit ja kapasiteetti on selvästi suunnattu uudelle raudalle.
Eli ei pyöritä FSD:tä. Kaistavahti toimii ok.
Eli siis Tesla ei yritä tehdä yleiskäyttöistä AI-piiriä kuten Nvidia vaan optimoida koko arkkitehtuurin yhdelle datavirralle ja muutamalle tarkkuudelle.
Mikä se datavirta on?!? Edelleen, nää ei ole tulossa autoihin muskin mukaan.
 
Viimeksi muokattu:
Ja samalla sitten pakotetaan laskemaan korkeammalla tarkkuudella ja hitaammin kuin mitä vaikka nvidian korteilla voisi. Muutenkin vähän hassua vetää näitä HW 1-2-3-4 mukaan kun nämä laitteet ei väitetysti ole tulossa autoihin.

Miten se tapahtuu? Mikä on latency-vaatimus (eli suomeksi varmaan maksimiviive?) grokin vastaukselle? Datavirratkin on varmaan suuri mysteeri, kun optimus robosta tuskin on edes ekaa tuotantomallia lyöty lukkoon raudan suhteen.

Latency-vaatimukset eivät ole mysteeri vaan ne tulevat suoraan ajamisesta. Kamera, päätös, ohjaus pitää tapahtua kymmenissä millisekunneissa muuten auto ei reagoi ajoissa. Tämä asettaa hyvin tiukan ylärajan koko pipelineen ja sitä vastaan arkkitehtuuri mitoitetaan. Datavirrat eivät myöskään ole tuntemattomia vaam kameramäärä, resoluutiot ja frame rate on tiedossa jo vuosia ennen tuotantoa joten muistikaistat ja bufferit voidaan mitoittaa niiden mukaan.
Mitä tarkoitat sillä että tensorikokovaatimus on ollut tiedossa jo vuosia? Tässä on 100% varmuudella maksimimäärä tensoreita mitä muskin riskinottokyky kestää ja sitten toivotaan että viiden vuoden päästä kehitetty malli toimii sillä lopulta riittävän nopeasti robotaxia tms. varten.

Tensorikokojen tarkat arvot muuttuvat mutta niiden suuruusluokka ei. Esim. kuvapohjaisesa mallissa feature mapien koot ja kerrosrakenteet pysyvät samantyyppisinä vaikka malli kehittyy. Piiri optimoidaan näille luokille eikä yksittäiselle malliversiolle.
Onko siellä datacenttereissäkin minne näitä pääasiallisesti varmaan laitetaan siis jotain autonomista ajelua? Vai onko joku grok samaa ongelma-aluetta kuin FSD?

Datacenterissäkin ajetaan pääosin samaa ongelmaa Tesla AI pipelinea. Se ei ole yleiskäyttöistä AI:ta kuten Nvidialla vaan samaa workloadia eri mittakaavassa.
Eli ei pyöritä FSD:tä. Kaistavahti toimii ok.

FSD supervised on juuri se nykyinen FSD-versio. Se ei ole täysi autonomia mutta se on sama pipeline rajoitetulla kapasiteetilla. HW3 pyöritää sitä mutta uudemmat mallit eivät enää mahdu siihen samalla tavalla.
Mikä se datavirta on?!? Edelleen, nää ei ole tulossa autoihin muskin mukaan.

Datavirrat eivät riipu siitä onko laite jo autossa. Kamerakonfiguraatio, resoluutio ja FPS on päätetty vuosia ennen tuotantoa koska koko auton suunnittelu perustuu niihin.

Summasummarun... Ajattelet tätä liian ohjelmistolähtöisesti. Piiriä ei optimoida valmiille mallille vaan datavirralle ja laskentaprofiilille jotka ovat paljon vakaampia kuin yksittäinen maliversio ja siksi optimointi toimii vaikka malli kehittyy.
 
Latency-vaatimukset eivät ole mysteeri vaan ne tulevat suoraan ajamisesta. Kamera, päätös, ohjaus pitää tapahtua kymmenissä millisekunneissa muuten auto ei reagoi ajoissa. Tämä asettaa hyvin tiukan ylärajan koko pipelineen ja sitä vastaan arkkitehtuuri mitoitetaan. Datavirrat eivät myöskään ole tuntemattomia vaam kameramäärä, resoluutiot ja frame rate on tiedossa jo vuosia ennen tuotantoa joten muistikaistat ja bufferit voidaan mitoittaa niiden mukaan.
Ja tämä olisi ihan loogista jos näiden käyttökohde olisi vaikka HW3 autojen päivittäminen. Käyttökohde vaan ei vaikuta olevan tälläinen tunnetun legacy laitteen päivittäminen, mitä olen jo yrittänyt selväsanaisesti täällä kirjoittaa.
Tensorikokojen tarkat arvot muuttuvat mutta niiden suuruusluokka ei. Esim. kuvapohjaisesa mallissa feature mapien koot ja kerrosrakenteet pysyvät samantyyppisinä vaikka malli kehittyy. Piiri optimoidaan näille luokille eikä yksittäiselle malliversiolle.
Mitä nyt yrität selittää? Että tälläinen monsteripiiri oltaisiin kaikilta osin optimoitu tekemään kuvantunnistusta jostain 30 fps HD-ready kamerasta? Ei moinen tarvitse juuri mitään suorituskykyä.

Piiri on iso koska sillä ajetaan jotain ihan muuta tuon rinnalla, jotain joka oikeasti vaatii laskentatehoa.
Datacenterissäkin ajetaan pääosin samaa ongelmaa Tesla AI pipelinea. Se ei ole yleiskäyttöistä AI:ta kuten Nvidialla vaan samaa workloadia eri mittakaavassa.
Mikä tämä workload siis on? Anna joku esimerkki.
FSD supervised on juuri se nykyinen FSD-versio. Se ei ole täysi autonomia mutta se on sama pipeline rajoitetulla kapasiteetilla.
Se ei ole FSD, vaan joku glorifioitu kaistavahti. Jos kaistavahti muuttuisi FSD:ksi "kapasiteettirajoitusta" vähentämällä niin se oltaisiin tehty jo. Miksi tälläinen kapasiteettirajoitus on tehty?
Datavirrat eivät riipu siitä onko laite jo autossa. Kamerakonfiguraatio, resoluutio ja FPS on päätetty vuosia ennen tuotantoa koska koko auton suunnittelu perustuu niihin.
Nämä ei edelleenkään ole tulossa autoihin t. musk.
Summasummarun... Ajattelet tätä liian ohjelmistolähtöisesti. Piiriä ei optimoida valmiille mallille vaan datavirralle ja laskentaprofiilille jotka ovat paljon vakaampia kuin yksittäinen maliversio ja siksi optimointi toimii vaikka malli kehittyy.
Tämä on ihan täyttä potaskaa. Vaikka leikittäisiin että tämä olisi autoihin tulossa, niin on kyllä aivan absurdia väittää että tämän piirin hyödyllisyys tuossa käytössä olisi jotenkin dramaattisesti parempi kuin jonkun toisen datavirtojen perusteella. Ne teslan 720p30Hz kamerat ei tarvitse kovin kummoisia resursseja. Laskentaprofiilin stabiliteetista ei varmasti ole näyttää myöskään yhtään mitään konkreettista.
 
Mitä nyt yrität selittää? Että tälläinen monsteripiiri oltaisiin kaikilta osin optimoitu tekemään kuvantunnistusta jostain 30 fps HD-ready kamerasta? Ei moinen tarvitse juuri mitään suorituskykyä.

Ongelma ei ole yksittäinen HD-frame vaan se että ajetaan useita kameroita samanaikaisesti ja useita neuroverkkoja rinnakkain ja koko pipeline reaaliajassa. Se ei ole "yksi kuvantunnistus" vaan jatkuva monimalli-inferenssi.

Tarve ei tule resoluutiosta vaan latency-vaatimuksesta. Kaikki pitä laskea kymmenissä millisekunneissa jolloin et voi vain "ajaa hitaammin" kuten datacenterissä. Se pakottaa korkean rinnakkaisuuden ja muistikaistan.
Piiri on iso koska sillä ajetaan jotain ihan muuta tuon rinnalla, jotain joka oikeasti vaatii laskentatehoa.

Juuri näin perception on vain osa pipelinea. Lisäksi on tracking, temporal fusion, planning ja control. Piiri mitoitetaan koko pipelineen, ei yhteen malliin.

Mikä tämä workload siis on? Anna joku esimerkki.
Sama pipeline eri mittakaavassa video, perception (objektit, kaistat, syvyys), temporal fusion. planning. Datacenterissä tätä ajetaan isomalla batchilla ja mallien kehitykseen, autossa yksittäisenä low-latency instanssina.
Se ei ole FSD, vaan joku glorifioitu kaistavahti. Jos kaistavahti muuttuisi FSD:ksi "kapasiteettirajoitusta" vähentämällä niin se oltaisiin tehty jo. Miksi tälläinen kapasiteettirajoitus on tehty?

Terminologia on vähän sekaisin. FSD supervised käyttää samaa pipelinea mutta vaatii kuljettajan valvonnan. Se ei ole täysi autonomia mutta ei myöskään pelkkä kaistavahti
Tämä on ihan täyttä potaskaa. Vaikka leikittäisiin että tämä olisi autoihin tulossa, niin on kyllä aivan absurdia väittää että tämän piirin hyödyllisyys tuossa käytössä olisi jotenkin dramaattisesti parempi kuin jonkun toisen datavirtojen perusteella. Ne teslan 720p30Hz kamerat ei tarvitse kovin kummoisia resursseja. Laskentaprofiilin stabiliteetista ei varmasti ole näyttää myöskään yhtään mitään konkreettista.
Koska mallit kasvavat koko ajan. HW3 riittää nykyisiin versioihin mutta ei enää uusimpiin ilman kompromisseja. Siksi uusi rauta tulee ei siksi että vanha ei toimisi lainkaan vaan siksi että headroom loppuu.
Datavirrat eivät riipu siitä onko laite vielä autossa. Kamerakonfiguraatio, resoluutiot ja FPS päätetään auton suunnitteluvaiheessa ja koko AI-pipeline rakennetaan niiden ympärille.
Tämä ei ole ohjelmistokeskustelu vaan arkkitehtuurikysymys. Piiri optimoidaan datavirralle ja latency-profiilille jotka ovat paljon vakampia kuin yksittäinen malliversio. Siksi optimointi toimii vaikka mallit muuttuvat.
 
Ongelma ei ole yksittäinen HD-frame vaan se että ajetaan useita kameroita samanaikaisesti ja useita neuroverkkoja rinnakkain ja koko pipeline reaaliajassa. Se ei ole "yksi kuvantunnistus" vaan jatkuva monimalli-inferenssi.

Tarve ei tule resoluutiosta vaan latency-vaatimuksesta. Kaikki pitä laskea kymmenissä millisekunneissa jolloin et voi vain "ajaa hitaammin" kuten datacenterissä. Se pakottaa korkean rinnakkaisuuden ja muistikaistan.
Huoh. Kuinka suuren osan tuosta piiristä uskot käytettävän tähän kuvafeedien tulkkaamiseen?
Juuri näin perception on vain osa pipelinea. Lisäksi on tracking, temporal fusion, planning ja control. Piiri mitoitetaan koko pipelineen, ei yhteen malliin.
Ja se pipeline ja sen mallit eivät ole vielä olemassa, millä vaikka FSD saataisiin toimimaan. Miten siis voidaan mitoittaa jotakin kun vaatimukset eivät ole selvillä?
Sama pipeline eri mittakaavassa video, perception (objektit, kaistat, syvyys), temporal fusion. planning. Datacenterissä tätä ajetaan isomalla batchilla ja mallien kehitykseen, autossa yksittäisenä low-latency instanssina.
Siis mallien kehitystäkö nyt tehdään autojen tietokoneilla? Missä maailmassa?

Miksi datacentterissä ajettaisiin FSD autoilla, mutta jossain ”eri mittakaavassa”? Mitä oikeasti tarkoitat tällä?
Terminologia on vähän sekaisin. FSD supervised käyttää samaa pipelinea mutta vaatii kuljettajan valvonnan. Se ei ole täysi autonomia mutta ei myöskään pelkkä kaistavahti
Se on kaistavahti joka osaa käyttää vilkkua. Wau.

Jos FSD on, kuten väität, kiinni vain siitä että ”kapasiteettia on rajoitettu”, niin miksei tätä rajoitetta olla poistettu? Kuulostaa vähintään absurdilta.

Koska mallit kasvavat koko ajan. HW3 riittää nykyisiin versioihin mutta ei enää uusimpiin ilman kompromisseja. Siksi uusi rauta tulee ei siksi että vanha ei toimisi lainkaan vaan siksi että headroom loppuu.
Datavirrat eivät riipu siitä onko laite vielä autossa. Kamerakonfiguraatio, resoluutiot ja FPS päätetään auton suunnitteluvaiheessa ja koko AI-pipeline rakennetaan niiden ympärille.
Tämä ei ole ohjelmistokeskustelu vaan arkkitehtuurikysymys. Piiri optimoidaan datavirralle ja latency-profiilille jotka ovat paljon vakampia kuin yksittäinen malliversio. Siksi optimointi toimii vaikka mallit muuttuvat.
Kai sä nyt tajuat että latenssi on malliriippuvainen juttu? Ei siis voida piiriä suunniteltaessa päättää latenssia jollekkin jos malli ei ole tiedossa.

Mikä on ”latency profile”? Anna konkreettinen esimerkki.

Hirveästi hölynpölyä on tullu netistä luettua kyllä taas kerran.
 
Neuroverkko tekee teslan autoissa, roboissa aika paljon muuta kuin "kuvantunnistuksen". End-2-End matalalatenssisia neuroverkkoja joissa raaka manipuloimaton sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Auton tapauksessa tapahtuu paljon muutakin kuin kuvantunnistusta kuten ympärilläolevien asioiden simulointi, reitinsuunnittelu, mikä parkkipaikka on paras jne. Auton pitää ymmärtää onko kävelijä astumassa tiellä, toinen auto jarruttamassa edessä ja mitä se tarkoittaa jne. Juttuja ei myöskään tunnisteta ja simuloida vain 2d kuvasta vaan siellä tehdään voxelityyppinen 3d maailma tyyliin reaaliaikainen nerfs missä asioita simuloidaan ja ymmärretään. Tesla on kertonut että sama fundamentaalinen teknologia autoissa ja roboteissa pohjalla maailman ymmärtämiseksi ja simuloimiseksi.

Nvidialta on hyvä selitys end-2-end neuroverkoilla auton ajamisesta jos asia kiinnostaa. Tesla oli tässä jutussa ensimmäinen, muut kopioi saman idean. Nvidia on tuon oman mallinsa laittanut open sourceen, nvidian malli löytyy mersun uudesta cla:sta: NVIDIA Alpamayo

Asiaa voi mieltää silläkin tavalla, että jos vaikka tuplataan kameroiden resoluutio seuraavassa sensori-iteraatiossa niin todennäköisesti tarvitaan 4x laskentatehoa kun pikselimäärä nelinkertaistuu. Tesla on yleensä päivittänyt sensorit samalla kerralla kun päivitetään tietokone. Nouseeko seuraavassa iteraatiossa kameroiden resoluutio, ei ole edes huhuja asiasta olemassa.

Linkit ja tarkemmat sepostukset löytyy ketjusta: Autonominen ajaminen ja itsestään ajavat autot jos asia oikeasti kiinnostaa muutenkin kuin väittelyn osalta. Tähän ketjuun tuskin kannattaa vääntää asioita jotka on jo tuolla toisessa ketjussa käyty läpi.
 
Viimeksi muokattu:
Huoh. Kuinka suuren osan tuosta piiristä uskot käytettävän tähän kuvafeedien tulkkaamiseen?

Ja se pipeline ja sen mallit eivät ole vielä olemassa, millä vaikka FSD saataisiin toimimaan. Miten siis voidaan mitoittaa jotakin kun vaatimukset eivät ole selvillä?

Pipeline ei ole "keksitty myöhemmin" vaan se on ollut sama rakenne vuosia: kamera, perception, tracking/temporal, planning, control. Mallit kehittyvät mutta tämä rakenne ei muutu. Piiri mitoitetaan tähän rakenteeseen ei yksittäiseen malliversioon.
Siis mallien kehitystäkö nyt tehdään autojen tietokoneilla? Missä maailmassa?

Ei vaan mallit treenataan datacenterissä GPU-klustereilla ja autot tekevät vain inferenssiä. Datacenterissä samaa pipelinea ajetaan batchina mallien kehitykseen ja autossa yksittäisenä low-latency instanssina.
Miksi datacentterissä ajettaisiin FSD autoilla, mutta jossain ”eri mittakaavassa”? Mitä oikeasti tarkoitat tällä?

Koska sama vision sekä planning pipeline toimii molemmissa. Ero on vain optimointikohteessa jossa datacenterissä throughput (batch), autossa latency (reaaliaika) eli sama laskentaprofiili mutta eri käyttötila.
Se on kaistavahti joka osaa käyttää vilkkua. Wau.

Jos FSD on, kuten väität, kiinni vain siitä että ”kapasiteettia on rajoitettu”, niin miksei tätä rajoitetta olla poistettu? Kuulostaa vähintään absurdilta.


Kai sä nyt tajuat että latenssi on malliriippuvainen juttu? Ei siis voida piiriä suunniteltaessa päättää latenssia jollekkin jos malli ei ole tiedossa.

Latency-vaatimus ei tule mallista vaan ajamisesta. Esim. 50–100 ms on käytännön yläraja reaktiole. Malli rakennetaan mahtumaan tähän eikä toisin päin ja siksi latency on arkkitehtuurin lähtökohta eikä lopputulos.
Mikä on ”latency profile”? Anna konkreettinen esimerkki.

Latency profile tarkoittaa että tiedetään etukäteen esim. että yksi frame pitää prosessoida 10–20ms ja koko pipeline 50 ms sisällä ja tämä jaetaan osiin vision 20 ms, fusion 10ms, planning 10–20ms. Piiri optimoidaan tähän budjettiin.
 
Neuroverkko tekee teslan autoissa, roboissa aika paljon muuta kuin "kuvantunnistuksen". End-2-End matalalatenssisia neuroverkkoja joissa raaka manipuloimaton sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Auton tapauksessa tapahtuu paljon muutakin kuin kuvantunnistusta kuten ympärilläolevien asioiden simulointi, reitinsuunnittelu, mikä parkkipaikka on paras jne. Auton pitää ymmärtää onko kävelijä astumassa tiellä, toinen auto jarruttamassa edessä ja mitä se tarkoittaa jne. Juttuja ei myöskään tunnisteta ja simuloida vain 2d kuvasta vaan siellä tehdään voxelityyppinen 3d maailma tyyliin reaaliaikainen nerfs missä asioita simuloidaan ja ymmärretään. Tesla on kertonut että sama fundamentaalinen teknologia autoissa ja roboteissa pohjalla maailman ymmärtämiseksi ja simuloimiseksi.

Nvidialta on hyvä selitys end-2-end neuroverkoilla auton ajamisesta jos asia kiinnostaa. Tesla oli tässä jutussa ensimmäinen, muut kopioi saman idean. Nvidia on tuon oman mallinsa laittanut open sourceen, nvidian malli löytyy mersun uudesta cla:sta: NVIDIA Alpamayo

Asiaa voi mieltää silläkin tavalla, että jos vaikka tuplataan kameroiden resoluutio seuraavassa sensori-iteraatiossa niin todennäköisesti tarvitaan 4x laskentatehoa kun pikselimäärä nelinkertaistuu. Tesla on yleensä päivittänyt sensorit samalla kerralla kun päivitetään tietokone. Nouseeko seuraavassa iteraatiossa kameroiden resoluutio, ei ole edes huhuja asiasta olemassa.

Linkit ja tarkemmat sepostukset löytyy ketjusta: Autonominen ajaminen ja itsestään ajavat autot jos asia oikeasti kiinnostaa muutenkin kuin väittelyn osalta. Tähän ketjuun tuskin kannattaa vääntää asioita jotka on jo tuolla toisessa ketjussa käyty läpi.


Tuo on hyvä kuvaus siitä että kyse ei ole pelkästä kuvantunnistuksesta vaan koko perception, planning -pipeline mutta vaikka mallit menevät end-to-end suuntaan niindatavirta ei muutu vaan multi-camera video sisään, ohjaus ulos tiukalla latency-budjetilla. Siksi arkkitehtuuri optimoidaan tälle profiilille eikä yksittäiselle mallille. Lisäksi compute ei skaalaudu suoraan pikselimäärän mukaan koska data downsamplettaan nopeasti eikä mitään täyttä NeRF-tyyppistä 3D-simulaatiota ajeta reaaliajassa autossa.
 
Pipeline ei ole "keksitty myöhemmin" vaan se on ollut sama rakenne vuosia: kamera, perception, tracking/temporal, planning, control. Mallit kehittyvät mutta tämä rakenne ei muutu. Piiri mitoitetaan tähän rakenteeseen ei yksittäiseen malliversioon.
Onko tossa piirillä siis joku osa joka on kustomoitu tiukasti tähän pipeline rakenteeseen? Vaikea uskoa. Tuo kuulostaa varsin geneeriseltä.
Ei vaan mallit treenataan datacenterissä GPU-klustereilla ja autot tekevät vain inferenssiä. Datacenterissä samaa pipelinea ajetaan batchina mallien kehitykseen ja autossa yksittäisenä low-latency instanssina.
Mitä tarkoitat ku kerrot että "datacentterissä ajetaan batchina mallien kehitykseen"?
Koska sama vision sekä planning pipeline toimii molemmissa. Ero on vain optimointikohteessa jossa datacenterissä throughput (batch), autossa latency (reaaliaika) eli sama laskentaprofiili mutta eri käyttötila.
Miksi niitä ajetaan siellä datacentterissä? Onko sillä renkaat?
Latency-vaatimus ei tule mallista vaan ajamisesta. Esim. 50–100 ms on käytännön yläraja reaktiole. Malli rakennetaan mahtumaan tähän eikä toisin päin ja siksi latency on arkkitehtuurin lähtökohta eikä lopputulos.
Huoh. Eli ensin tarvitaan rauta ja ongelma, sitten rakennetaan mallia että saisiko sen tekemään vaaditut asiat kyseisellä raudalla vaaditussa ajassa.

Vielä aiemmin kerroit kuinka rauta on optimoitu mallille, nyt mennäänkin toisin päin?
Latency profile tarkoittaa että tiedetään etukäteen esim. että yksi frame pitää prosessoida 10–20ms ja koko pipeline 50 ms sisällä ja tämä jaetaan osiin vision 20 ms, fusion 10ms, planning 10–20ms. Piiri optimoidaan tähän budjettiin.
Miten tämä piirin optimointi käytännössä tapahtuu? Ottaen siis huomioon että nää mallit joille nyt kirjasit suorituskykytavoitteet eivät ole edes olemassa. Ja tiedostaen että latenssi on malliriippuvainen ominaisuus.
 
Onko tossa piirillä siis joku osa joka on kustomoitu tiukasti tähän pipeline rakenteeseen? Vaikea uskoa. Tuo kuulostaa varsin geneeriseltä.

Mitä tarkoitat ku kerrot että "datacentterissä ajetaan batchina mallien kehitykseen"?

Miksi niitä ajetaan siellä datacentterissä? Onko sillä renkaat?

Huoh. Eli ensin tarvitaan rauta ja ongelma, sitten rakennetaan mallia että saisiko sen tekemään vaaditut asiat kyseisellä raudalla vaaditussa ajassa.

Vielä aiemmin kerroit kuinka rauta on optimoitu mallille, nyt mennäänkin toisin päin?

Miten tämä piirin optimointi käytännössä tapahtuu? Ottaen siis huomioon että nää mallit joille nyt kirjasit suorituskykytavoitteet eivät ole edes olemassa. Ja tiedostaen että latenssi on malliriippuvainen ominaisuus.

Ei mennä "toisinpäin" vaan molemmat tehdään rinnakkain. Piiriä ei optimoida yhdelle mallille vaan datavirralle ja latency-budjetille jotka tulevat ajamisesta. Mallit sitten rakenetaan mahtumaan siihen budjettiin. Sama ilmiö on kaikessa reaaliaikaisessa järjestelmässä eli et voi ensin tehdä mallia vapaasti ja katsoa sitten riittääkö rauta koska auto ei voi odottaa 200 ms päätöstä. Siksi latency on lähtökohta eikä lopputulos.

Tämä on sama kuin pelimoottorissa eli et tee peliä ensin ja katso sitten pyöriikö se 60 fps vaan tiedät että 16 ms per frame on maksimi ja optimoit kaiken siihen. AI-autossa tämä raja on vielä tiukempi.

Optimointi ei perustu malliin vaan workloadiin. Multi-camera video sisään ja reaaliaikainen päätös ulos. Tämä ei muutu vaikka mallit vaihtuvat CNN:stä transformeriin tai end-to-endiin.

Datacenterissä sama pipeline ajetaan batchina eli useita frameja/malleja rinnakkain maksimoiden throughput. Autossa ajetaan yksi instanssi kerrallaan minimoiden latency. Sama laskenta mutta eri optimointitavoite.

Tässä rajoitteet tulevat fysiikasta (reaktioaika) ja datavirrasta (kamerat) eikä mallista ja siksi arkkitehtuuri suunnitellaan näiden mukaan ja mallit pakotetaan mahtumaan siihen.
 

Statistiikka

Viestiketjuista
305 288
Viestejä
5 169 553
Jäsenet
82 662
Uusin jäsen
JooJooJoo

Hinta.fi

Back
Ylös Bottom