Tesla sai AI5-piirin valmiiksi

Kaotik · keskiviikkona klo 23:12

Tesla on saanut valmiiksi itse kehittämänsä AI5-piirin. AI5:n on tarkoitus pyörittää tekoälytehtäviä Teslan autoissa. AI5 on jatkoa aiemmin HW- eli Hardware-sarjana tunnetuille piireille.

Linkki: https://x.com/elonmusk/status/2044315118583066738

Elon Musk kiitti twiitissä piirin mahdollistamisesta sekä TSMC:tä että Samsungia, mikä selittyy sillä, että tiettävästi samaa piiriä tehdään kummankin valmistajan toimesta. Samsung valmistaa AI5-piirejä Texasissa ja TSMC Arizonassa. Muskin mukaan AI5-siru on noin puolet valmistusprosessin mahdollistamasta koosta (half the reticle size).

Itse AI5-piirin ohella samasta paketoinnista löytyy yhteensä 12 SK Hynixin muistipiiriä. TechPowerUpin mukaan ne olisivat LPDDR5X-piirejä, kun Tom's Hardware epäilee niiden olevan GDDR6- tai GDDR7-piirejä.

zepi · keskiviikkona klo 23:22

No ainakin Musk aikoo laittaa tosissaan lisää inferenssitehoa autoon jos vaihtaa tuollaiseen... Ei ole myöskään ihan halpa paketti.

Eikö noilla osanumeroilla muka löydy muistia suoraan jostain kuvastosta? Ovat kyllä sen verran muhjuisia että vaikea lukea tarkkaa koodia. Tämä tulee myös syömään sähköä ihan tosissaan.

pomk · keskiviikkona klo 23:29

Jos haluaisi yhtä järeän laskentakortin nvidialta, niin se maksaisi teslan auton verran. Mihin näitä olikaan tarkoitus oikein asennella?

Mörkö · eilen klo 02:33

zepi sanoi:
Ovat kyllä sen verran muhjuisia että vaikea lukea tarkkaa koodia.

Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva? :comp:

leripe · eilen klo 07:27

Mörkö sanoi:
Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva?

Gemini pro:n mielipide:

Seppo77 · eilen klo 10:54

pomk sanoi:
Jos haluaisi yhtä järeän laskentakortin nvidialta, niin se maksaisi teslan auton verran. Mihin näitä olikaan tarkoitus oikein asennella?

Ei voi verrata noin. Nvidia H100 on yleiskäyttöinen AI-Superpiiri eli erittäin monipuolinen monenlaiseen eri asiaan ja silti tehokkaasti vieläpä. Tesla AI5 on vain autopilot/FSD käyttöön eli aivan jumalattomasti yksinkertaisempi piiri. Kun tuo piiri on yhteen käytöttarkoitukseen niin sen optimointi on voitu myös tehdä ihan eri luokalla joka vaikuttanee paljon myös.

pomk · eilen klo 11:15

Seppo77 sanoi:
Ei voi verrata noin. Nvidia H100 on yleiskäyttöinen AI-Superpiiri eli erittäin monipuolinen monenlaiseen eri asiaan ja silti tehokkaasti vieläpä. Tesla AI5 on vain autopilot/FSD käyttöön eli aivan jumalattomasti yksinkertaisempi piiri. Kun tuo piiri on yhteen käytöttarkoitukseen niin sen optimointi on voitu myös tehdä ihan eri luokalla joka vaikuttanee paljon myös.

Mitä tarkoitat? Näitä on Musk ainaki twitterissä kehunut käytettävän vaikka missä.

Lisäksi se FSD homma on jotain tensor laskentaa siinä missä kaikki muukin tensor laskenta. Ilman todistusaineistoa on ihan humpuukia väittää että nämä tensor ytimet tietäisivät tekevänsä FSD laskentaa ja sen perusteella päättäisivät toimia nopeammin.

zepi · eilen klo 11:27

Mörkö sanoi:
Käsin asemoitu, mediaani-pinottu, Unsharp maskilla terävöity ja Camera Rawin Clarityllä photarissa selkeytetty kuva kahdeksasta terävimmästä piiristä. Sanoisin notta malli on D58GG6MK9Q? En löytänyt D58 sarjaan mitään viittausta, mutta H58GG6MK6GX037 olis LPDDR5-6400 12GB, että mahdollisesti sellaiselle sukua oleva?

Ennen stäkkäystäkin väittäisin että alkaa D:llä tai B:llä...

Niko · eilen klo 11:31

Tuleeko nämä nykyisten Ryzenien rinnalle vai niiden tilalle? Tesla on kyllä siitä mielenkiintoinen, että autossa on laskentatehoa enemmän, mitä monen tietokoneessa. Sinällään viisas ratkaisu, kun se mahdollistaa tulevat päivitykset ilman kompromisseja.

zepi · eilen klo 11:34

pomk sanoi:
Mitä tarkoitat? Näitä on Musk ainaki twitterissä kehunut käytettävän vaikka missä.

Lisäksi se FSD homma on jotain tensor laskentaa siinä missä kaikki muukin tensor laskenta. Ilman todistusaineistoa on ihan humpuukia väittää että nämä tensor ytimet tietäisivät tekevänsä FSD laskentaa ja sen perusteella päättäisivät toimia nopeammin.

No erona vaikka se, että nvidian piiri tukee ~kaikkia laskentatarkuuksia vähintään jollain tavalla + sen muistiohjaimen tulee toimia hyvin kaikilla mahdollisilla käyttötavoilla jne.

Jos vaikka tesla on päättänyt optimoida inferenssin float8:lle tai float6:selle tai int4:lle, niin se on voinut suunnitella fyysisesti laskentayksiköt laskemaan vain oikean bittimäärin lukuja ja muistiohjaimet on voitu optimoida hakemaan juuri sopivat määrät dataa ja oikealla tahdilla jne. Nvidiassa on myös kaikenlaisia virtualisointi + tenant-isolation härdelleitä jne jotka ovat turhia tälläiselle tasan yhden käytön yhdessä autossa yhtä AI-mallia ajavalle piirille. Kaikkien turhien ominaisuuksien poisto säästää transistoreita ja mahdollistaa niiden käyttämisen vain siihen mitä tesla tarvitsee omassa käytössään.
--
Tälläinen täysin räätälöity piiri tarjoaa varmasti paremman energiahyötysuhteen + suorituskyvyn per transistori kun sillä ajetaan malleja joita varten se on erikseen optimoitu.

Kaotik · eilen klo 11:34

Niko sanoi:
Tuleeko nämä nykyisten Ryzenien rinnalle vai niiden tilalle? Tesla on kyllä siitä mielenkiintoinen, että autossa on laskentatehoa enemmän, mitä monen tietokoneessa. Sinällään viisas ratkaisu, kun se mahdollistaa tulevat päivitykset ilman kompromisseja.

Ei kai, Ryzenithän on infotainment hommissa

Mörkö · eilen klo 11:38

leripe sanoi:
Gemini pro:n mielipide:

Kylläpä hallusinoi konsistentisti :poop:

Toivottavasti yrität trollata, muutoin suosittelen optikolla käyntiä.

zepi sanoi:
Ennen stäkkäystäkin väittäisin että alkaa D:llä tai B:llä...

Jep, D58 oli oma mielipiteeni ennen pinoamista.

pomk · eilen klo 12:48

zepi sanoi:
Jos vaikka tesla on päättänyt optimoida inferenssin float8:lle tai float6:selle tai int4:lle, niin se on voinut suunnitella fyysisesti laskentayksiköt laskemaan vain oikean bittimäärin lukuja ja muistiohjaimet on voitu optimoida hakemaan juuri sopivat määrät dataa ja oikealla tahdilla jne.

Onko nämä teslan laskimet siis kykeneviä laskemaan vain jollain tarkkuudella? Vai onko kyse mutusta?

zepi sanoi:
Nvidiassa on myös kaikenlaisia virtualisointi + tenant-isolation härdelleitä jne jotka ovat turhia tälläiselle tasan yhden käytön yhdessä autossa yhtä AI-mallia ajavalle piirille.

Nuo ovat häviävän pieni osa piiriä. Lisäksi tosiaan musk on twitterissä maininnut että näitä käytetään muuallakin kuin autoissa, ja että nämä eivät ole vaatimus FSD:lle vanhoissa autoissa.

Liekö tämä FSD AI-mallikaan valmis? Ja jos se kerran ei ole, niin miten jollekkin jota ei ole vielä olemassakaan voidaan mukamas tehdä optimoitu siru?

weetabix · eilen klo 12:51

Kait nämä nyt robotteihin pääsääntöisesti ovat tulossa? Eikös se pitänyt olla se seuraava kultakaivos ja nämä kelpaavat autoihin vain fsd tilauksille korkeintaan.

Seppo77 · eilen klo 13:32

pomk sanoi:
Onko nämä teslan laskimet siis kykeneviä laskemaan vain jollain tarkkuudella? Vai onko kyse mutusta?

Nuo ovat häviävän pieni osa piiriä. Lisäksi tosiaan musk on twitterissä maininnut että näitä käytetään muuallakin kuin autoissa, ja että nämä eivät ole vaatimus FSD:lle vanhoissa autoissa.

Liekö tämä FSD AI-mallikaan valmis? Ja jos se kerran ei ole, niin miten jollekkin jota ei ole vielä olemassakaan voidaan mukamas tehdä optimoitu siru?

EI ole vain yhdelle vaan muutamaa valittua tarkkuutta (esim. INT8 + FP16 tyyppiset) mutta ei myöskään yhtä joustava kuin Nvidia joka tukee FP32, FP16, BF16, INT8, INT4 jne. koska tarkoitus nVidian piirissä on toimia kaikessa mahdollisessa.
Tarkkuus (precision) on yksi suurimmista suorituskykytekijöistä piireissä AI:ssa eikä todellakaan pieni osa saati häviävän pieniosa piiriä. Vaikuttaa suoraan esim. nopeuteen, virrankulutukseen, muistin käyttöön...

Vaikka malli ei ole täysin vlamis vielä niin ei Tesla tietämätön ole kun sillä on kuitenkin tärkeimmät eli neuroverkkotyypit, tensorikoot, datavirrat, kamerainputit, inference pipeline tiedossa ja rakenne tuon tiedon jälkeen pysyy melko samana loppuun.

Eri asia että Tesla käyttää piiriä myös training clusterissa ja inference servereissä verrattuna tosiaan tuohon nVidian käytännössä mihin vaan AI- hommaan.

Vanhemmat HW3 autot pyörittää FSD:tä mutta rajoitetummin.

finWeazel · eilen klo 13:38

Elon Musk on mainostanut, että teslan etu verrattuna nvidiaan/geneeriseen on, että he ovat suunnitelleet AI5 piirin juuri siihen mitä tarvivat ja kaikelle ylimääräiselle painettu deleteä. Ts. rauta suunniteltu&optimoitu teslan softapinon käyttöön. Tästä oli juttua viime syksynä. Google löytää, muskin twiitit missä oli tarkemmin kerrottu mille asioille painettu delete nappia, ylätason summarointi linkissä

Musk emphasized that Tesla’s focus on designing for a single customer gives it a massive advantage in simplicity and optimization. “NVIDIA… (has to) satisfy a large range of requirements from many customers. Tesla only has to satisfy one customer, Tesla,” he said. This, Musk stressed, allows Tesla to delete unnecessary complexity and deliver what could be the best performance per watt and per dollar in the industry once AI5 production scales

Tesla shares AI5 chip’s ambitious production roadmap details

Tesla CEO Elon Musk has revealed new details about the company’s next-generation AI5 chip, describing it as “an amazing design.”

www.teslarati.com

Ilmeisesti menossa robotteihin ja konesaleihin AI5 piiri aluksi. Autoihin myöhemmin.

pomk · eilen klo 17:25

Seppo77 sanoi:
Tarkkuus (precision) on yksi suurimmista suorituskykytekijöistä piireissä AI:ssa eikä todellakaan pieni osa saati häviävän pieniosa piiriä. Vaikuttaa suoraan esim. nopeuteen, virrankulutukseen, muistin käyttöön...

Taisit lukea väärin että mihin tuo tekstini viittasi.

Seppo77 sanoi:
EI ole vain yhdelle vaan muutamaa valittua tarkkuutta (esim. INT8 + FP16 tyyppiset) mutta ei myöskään yhtä joustava kuin Nvidia joka tukee FP32, FP16, BF16, INT8, INT4 jne. koska tarkoitus nVidian piirissä on toimia kaikessa mahdollisessa.

Mitkä on nämä valitut tarkkuudet ja saadaanko niillä tosiaan suurempi nopeus kuin nvidia + int4 tms?

Seppo77 sanoi:
Vaikka malli ei ole täysin vlamis vielä niin ei Tesla tietämätön ole kun sillä on kuitenkin tärkeimmät eli neuroverkkotyypit, tensorikoot, datavirrat, kamerainputit, inference pipeline tiedossa ja rakenne tuon tiedon jälkeen pysyy melko samana loppuun.

Onko noita mitään siis lyöty lukkoon siten että voitaisiin piiri mitoittaa hyvin lopulliseen malliin nähden?

Vaikea uskoa että olisi.

Seppo77 sanoi:
Eri asia että Tesla käyttää piiriä myös training clusterissa ja inference servereissä verrattuna tosiaan tuohon nVidian käytännössä mihin vaan AI- hommaan.

Luitko jo että mihin kaikkeen tuota oli kaavailtu? Miten kuvittelet että noin laajalla skaalalla tuotteita ja käyttökohteita saataisiin mitään etua siitä että tuote on viritetty nimenomaan vain tuohon käyttötarkoitusten osajoukkoon?

Seppo77 sanoi:
Vanhemmat HW3 autot pyörittää FSD:tä mutta rajoitetummin.

Ei pyöritä lainkaan, ainakaan vielä.
Kaistavahti (eli FSD supervised) taitaa toimia.

finWeazel sanoi:
Elon Musk on mainostanut, että teslan etu verrattuna nvidiaan/geneeriseen on, että he ovat suunnitelleet AI5 piirin juuri siihen mitä tarvivat ja kaikelle ylimääräiselle painettu deleteä. Ts. rauta suunniteltu&optimoitu teslan softapinon käyttöön. Tästä oli juttua viime syksynä. Google löytää, muskin twiitit missä oli tarkemmin kerrottu mille asioille painettu delete nappia, ylätason summarointi linkissä

Tesla shares AI5 chip’s ambitious production roadmap details

Tesla CEO Elon Musk has revealed new details about the company’s next-generation AI5 chip, describing it as “an amazing design.”

www.teslarati.com

Ilmeisesti menossa robotteihin ja konesaleihin AI5 piiri aluksi. Autoihin myöhemmin.

Ilman lukuja nää Muskin hallusinaatiot on pelkkää hölynpölyä.

Palanca · eilen klo 23:49

pomk sanoi:
Ei pyöritä lainkaan, ainakaan vielä.
Kaistavahti (eli FSD supervised) taitaa toimia.

Kyllä pyörittää

pomk · tänään klo 00:05

Palanca sanoi:
Kyllä pyörittää

Missä?

Seppo77 · tänään klo 05:23

pomk sanoi:
Taisit lukea väärin että mihin tuo tekstini viittasi.

Mitkä on nämä valitut tarkkuudet ja saadaanko niillä tosiaan suurempi nopeus kuin nvidia + int4 tms?

Tarkkoja formaatteja Tesla ei ole täysin julkistanut (varsinkaan AI5:stä), mutta aiemmista tiedetään suunta Tesla HW3/HW4 jossa pääpaino INT8 + osin FP16/FP32 ja uudemmissa todennäköisesti mukana myös alemmat tarkkuudet (INT4/FP8-tyyppiset). Koko datapolku on optimoitu juuri näille tarkkuuksille eism. muistiväylät juuri siihen bittileveyteen, välimuistit juuri oikeaan kokoon, laskentayksiköt ilman “turhaa yleislogiikkaa” joten voi olla nopeampi kuin Nvidia. Kyse ei ole siitä kuitenknaan lopulta tukeeko Nvidia samaa tarkkuutta vaan siitä että Teslalla koko arkkitehtuuri on rakennettu vain muutamalle tarkkuudelle ilman yleiskäyttöisen GPU:n overheadia.

pomk sanoi:
Onko noita mitään siis lyöty lukkoon siten että voitaisiin piiri mitoittaa hyvin lopulliseen malliin nähden?

Vaikea uskoa että olisi.

Mallin yksityiskohdat muuttuvat mutta datavirta, tensorikoot ja latency-vaatimukset ovat tiedossa jo vuosia etukäteen. Piiri mitoitetaan niihin ei yksittäiseen malliversioon.

pomk sanoi:
Luitko jo että mihin kaikkeen tuota oli kaavailtu? Miten kuvittelet että noin laajalla skaalalla tuotteita ja käyttökohteita saataisiin mitään etua siitä että tuote on viritetty nimenomaan vain tuohon käyttötarkoitusten osajoukkoon?

Käyttökohteita on useita mutta ne kaiki ajavat samaa Tesla AI -pipelinea joka ei ole yleiskäyttöinen AI-piiri kuten Nvidia vaan yhden ongelma-alueen piiri eri ympäristöissä.

pomk sanoi:
Ei pyöritä lainkaan, ainakaan vielä.
Kaistavahti (eli FSD supervised) taitaa toimia.

Ilman lukuja nää Muskin hallusinaatiot on pelkkää hölynpölyä.

HW3 pyörittää nykyistä FSD supervised -versiota mutta uudemmat mallit ja kapasiteetti on selvästi suunnattu uudelle raudalle.

Eli siis Tesla ei yritä tehdä yleiskäyttöistä AI-piiriä kuten Nvidia vaan optimoida koko arkkitehtuurin yhdelle datavirralle ja muutamalle tarkkuudelle. Siksi se voi olla tehokkaampi siinä käytössä vaikka Nvidia tukee enemmän formaatteja. Mallia ei tarvitse tietää täysin valmiiksi koska laskennan rakenne ja datavirrat ovat jo tiedossa.

pomk · tänään klo 09:47

Seppo77 sanoi:
Tarkkoja formaatteja Tesla ei ole täysin julkistanut (varsinkaan AI5:stä), mutta aiemmista tiedetään suunta Tesla HW3/HW4 jossa pääpaino INT8 + osin FP16/FP32 ja uudemmissa todennäköisesti mukana myös alemmat tarkkuudet (INT4/FP8-tyyppiset). Koko datapolku on optimoitu juuri näille tarkkuuksille eism. muistiväylät juuri siihen bittileveyteen, välimuistit juuri oikeaan kokoon, laskentayksiköt ilman “turhaa yleislogiikkaa” joten voi olla nopeampi kuin Nvidia. Kyse ei ole siitä kuitenknaan lopulta tukeeko Nvidia samaa tarkkuutta vaan siitä että Teslalla koko arkkitehtuuri on rakennettu vain muutamalle tarkkuudelle ilman yleiskäyttöisen GPU:n overheadia.

Ja samalla sitten pakotetaan laskemaan korkeammalla tarkkuudella ja hitaammin kuin mitä vaikka nvidian korteilla voisi. Muutenkin vähän hassua vetää näitä HW 1-2-3-4 mukaan kun nämä laitteet ei väitetysti ole tulossa autoihin.

Seppo77 sanoi:
Mallin yksityiskohdat muuttuvat mutta datavirta, tensorikoot ja latency-vaatimukset ovat tiedossa jo vuosia etukäteen. Piiri mitoitetaan niihin ei yksittäiseen malliversioon.

Miten se tapahtuu? Mikä on latency-vaatimus (eli suomeksi varmaan maksimiviive?) grokin vastaukselle? Datavirratkin on varmaan suuri mysteeri, kun optimus robosta tuskin on edes ekaa tuotantomallia lyöty lukkoon raudan suhteen.

Mitä tarkoitat sillä että tensorikokovaatimus on ollut tiedossa jo vuosia? Tässä on 100% varmuudella maksimimäärä tensoreita mitä muskin riskinottokyky kestää ja sitten toivotaan että viiden vuoden päästä kehitetty malli toimii sillä lopulta riittävän nopeasti robotaxia tms. varten.

Seppo77 sanoi:
Käyttökohteita on useita mutta ne kaiki ajavat samaa Tesla AI -pipelinea joka ei ole yleiskäyttöinen AI-piiri kuten Nvidia vaan yhden ongelma-alueen piiri eri ympäristöissä.

Onko siellä datacenttereissäkin minne näitä pääasiallisesti varmaan laitetaan siis jotain autonomista ajelua? Vai onko joku grok samaa ongelma-aluetta kuin FSD?

Seppo77 sanoi:
HW3 pyörittää nykyistä FSD supervised -versiota mutta uudemmat mallit ja kapasiteetti on selvästi suunnattu uudelle raudalle.

Eli ei pyöritä FSD:tä. Kaistavahti toimii ok.

Seppo77 sanoi:
Eli siis Tesla ei yritä tehdä yleiskäyttöistä AI-piiriä kuten Nvidia vaan optimoida koko arkkitehtuurin yhdelle datavirralle ja muutamalle tarkkuudelle.

Mikä se datavirta on?!? Edelleen, nää ei ole tulossa autoihin muskin mukaan.

Seppo77 · tänään klo 10:03

pomk sanoi:
Ja samalla sitten pakotetaan laskemaan korkeammalla tarkkuudella ja hitaammin kuin mitä vaikka nvidian korteilla voisi. Muutenkin vähän hassua vetää näitä HW 1-2-3-4 mukaan kun nämä laitteet ei väitetysti ole tulossa autoihin.

Miten se tapahtuu? Mikä on latency-vaatimus (eli suomeksi varmaan maksimiviive?) grokin vastaukselle? Datavirratkin on varmaan suuri mysteeri, kun optimus robosta tuskin on edes ekaa tuotantomallia lyöty lukkoon raudan suhteen.

Latency-vaatimukset eivät ole mysteeri vaan ne tulevat suoraan ajamisesta. Kamera, päätös, ohjaus pitää tapahtua kymmenissä millisekunneissa muuten auto ei reagoi ajoissa. Tämä asettaa hyvin tiukan ylärajan koko pipelineen ja sitä vastaan arkkitehtuuri mitoitetaan. Datavirrat eivät myöskään ole tuntemattomia vaam kameramäärä, resoluutiot ja frame rate on tiedossa jo vuosia ennen tuotantoa joten muistikaistat ja bufferit voidaan mitoittaa niiden mukaan.

pomk sanoi:
Mitä tarkoitat sillä että tensorikokovaatimus on ollut tiedossa jo vuosia? Tässä on 100% varmuudella maksimimäärä tensoreita mitä muskin riskinottokyky kestää ja sitten toivotaan että viiden vuoden päästä kehitetty malli toimii sillä lopulta riittävän nopeasti robotaxia tms. varten.

Tensorikokojen tarkat arvot muuttuvat mutta niiden suuruusluokka ei. Esim. kuvapohjaisesa mallissa feature mapien koot ja kerrosrakenteet pysyvät samantyyppisinä vaikka malli kehittyy. Piiri optimoidaan näille luokille eikä yksittäiselle malliversiolle.

pomk sanoi:
Onko siellä datacenttereissäkin minne näitä pääasiallisesti varmaan laitetaan siis jotain autonomista ajelua? Vai onko joku grok samaa ongelma-aluetta kuin FSD?

Datacenterissäkin ajetaan pääosin samaa ongelmaa Tesla AI pipelinea. Se ei ole yleiskäyttöistä AI:ta kuten Nvidialla vaan samaa workloadia eri mittakaavassa.

pomk sanoi:
Eli ei pyöritä FSD:tä. Kaistavahti toimii ok.

FSD supervised on juuri se nykyinen FSD-versio. Se ei ole täysi autonomia mutta se on sama pipeline rajoitetulla kapasiteetilla. HW3 pyöritää sitä mutta uudemmat mallit eivät enää mahdu siihen samalla tavalla.

pomk sanoi:
Mikä se datavirta on?!? Edelleen, nää ei ole tulossa autoihin muskin mukaan.

Datavirrat eivät riipu siitä onko laite jo autossa. Kamerakonfiguraatio, resoluutio ja FPS on päätetty vuosia ennen tuotantoa koska koko auton suunnittelu perustuu niihin.

Summasummarun... Ajattelet tätä liian ohjelmistolähtöisesti. Piiriä ei optimoida valmiille mallille vaan datavirralle ja laskentaprofiilille jotka ovat paljon vakaampia kuin yksittäinen maliversio ja siksi optimointi toimii vaikka malli kehittyy.

pomk · tänään klo 10:34

Seppo77 sanoi:
Latency-vaatimukset eivät ole mysteeri vaan ne tulevat suoraan ajamisesta. Kamera, päätös, ohjaus pitää tapahtua kymmenissä millisekunneissa muuten auto ei reagoi ajoissa. Tämä asettaa hyvin tiukan ylärajan koko pipelineen ja sitä vastaan arkkitehtuuri mitoitetaan. Datavirrat eivät myöskään ole tuntemattomia vaam kameramäärä, resoluutiot ja frame rate on tiedossa jo vuosia ennen tuotantoa joten muistikaistat ja bufferit voidaan mitoittaa niiden mukaan.

Ja tämä olisi ihan loogista jos näiden käyttökohde olisi vaikka HW3 autojen päivittäminen. Käyttökohde vaan ei vaikuta olevan tälläinen tunnetun legacy laitteen päivittäminen, mitä olen jo yrittänyt selväsanaisesti täällä kirjoittaa.

Seppo77 sanoi:
Tensorikokojen tarkat arvot muuttuvat mutta niiden suuruusluokka ei. Esim. kuvapohjaisesa mallissa feature mapien koot ja kerrosrakenteet pysyvät samantyyppisinä vaikka malli kehittyy. Piiri optimoidaan näille luokille eikä yksittäiselle malliversiolle.

Mitä nyt yrität selittää? Että tälläinen monsteripiiri oltaisiin kaikilta osin optimoitu tekemään kuvantunnistusta jostain 30 fps HD-ready kamerasta? Ei moinen tarvitse juuri mitään suorituskykyä.

Piiri on iso koska sillä ajetaan jotain ihan muuta tuon rinnalla, jotain joka oikeasti vaatii laskentatehoa.

Seppo77 sanoi:
Datacenterissäkin ajetaan pääosin samaa ongelmaa Tesla AI pipelinea. Se ei ole yleiskäyttöistä AI:ta kuten Nvidialla vaan samaa workloadia eri mittakaavassa.

Mikä tämä workload siis on? Anna joku esimerkki.

Seppo77 sanoi:
FSD supervised on juuri se nykyinen FSD-versio. Se ei ole täysi autonomia mutta se on sama pipeline rajoitetulla kapasiteetilla.

Se ei ole FSD, vaan joku glorifioitu kaistavahti. Jos kaistavahti muuttuisi FSD:ksi "kapasiteettirajoitusta" vähentämällä niin se oltaisiin tehty jo. Miksi tälläinen kapasiteettirajoitus on tehty?

Seppo77 sanoi:
Datavirrat eivät riipu siitä onko laite jo autossa. Kamerakonfiguraatio, resoluutio ja FPS on päätetty vuosia ennen tuotantoa koska koko auton suunnittelu perustuu niihin.

Nämä ei edelleenkään ole tulossa autoihin t. musk.

Seppo77 sanoi:
Summasummarun... Ajattelet tätä liian ohjelmistolähtöisesti. Piiriä ei optimoida valmiille mallille vaan datavirralle ja laskentaprofiilille jotka ovat paljon vakaampia kuin yksittäinen maliversio ja siksi optimointi toimii vaikka malli kehittyy.

Tämä on ihan täyttä potaskaa. Vaikka leikittäisiin että tämä olisi autoihin tulossa, niin on kyllä aivan absurdia väittää että tämän piirin hyödyllisyys tuossa käytössä olisi jotenkin dramaattisesti parempi kuin jonkun toisen datavirtojen perusteella. Ne teslan 720p30Hz kamerat ei tarvitse kovin kummoisia resursseja. Laskentaprofiilin stabiliteetista ei varmasti ole näyttää myöskään yhtään mitään konkreettista.

Seppo77 · tänään klo 12:47

pomk sanoi:
Mitä nyt yrität selittää? Että tälläinen monsteripiiri oltaisiin kaikilta osin optimoitu tekemään kuvantunnistusta jostain 30 fps HD-ready kamerasta? Ei moinen tarvitse juuri mitään suorituskykyä.

Ongelma ei ole yksittäinen HD-frame vaan se että ajetaan useita kameroita samanaikaisesti ja useita neuroverkkoja rinnakkain ja koko pipeline reaaliajassa. Se ei ole "yksi kuvantunnistus" vaan jatkuva monimalli-inferenssi.

Tarve ei tule resoluutiosta vaan latency-vaatimuksesta. Kaikki pitä laskea kymmenissä millisekunneissa jolloin et voi vain "ajaa hitaammin" kuten datacenterissä. Se pakottaa korkean rinnakkaisuuden ja muistikaistan.

pomk sanoi:
Piiri on iso koska sillä ajetaan jotain ihan muuta tuon rinnalla, jotain joka oikeasti vaatii laskentatehoa.

Juuri näin perception on vain osa pipelinea. Lisäksi on tracking, temporal fusion, planning ja control. Piiri mitoitetaan koko pipelineen, ei yhteen malliin.

pomk sanoi:
Mikä tämä workload siis on? Anna joku esimerkki.

Sama pipeline eri mittakaavassa video, perception (objektit, kaistat, syvyys), temporal fusion. planning. Datacenterissä tätä ajetaan isomalla batchilla ja mallien kehitykseen, autossa yksittäisenä low-latency instanssina.

pomk sanoi:
Se ei ole FSD, vaan joku glorifioitu kaistavahti. Jos kaistavahti muuttuisi FSD:ksi "kapasiteettirajoitusta" vähentämällä niin se oltaisiin tehty jo. Miksi tälläinen kapasiteettirajoitus on tehty?

Terminologia on vähän sekaisin. FSD supervised käyttää samaa pipelinea mutta vaatii kuljettajan valvonnan. Se ei ole täysi autonomia mutta ei myöskään pelkkä kaistavahti

pomk sanoi:
Tämä on ihan täyttä potaskaa. Vaikka leikittäisiin että tämä olisi autoihin tulossa, niin on kyllä aivan absurdia väittää että tämän piirin hyödyllisyys tuossa käytössä olisi jotenkin dramaattisesti parempi kuin jonkun toisen datavirtojen perusteella. Ne teslan 720p30Hz kamerat ei tarvitse kovin kummoisia resursseja. Laskentaprofiilin stabiliteetista ei varmasti ole näyttää myöskään yhtään mitään konkreettista.

Koska mallit kasvavat koko ajan. HW3 riittää nykyisiin versioihin mutta ei enää uusimpiin ilman kompromisseja. Siksi uusi rauta tulee ei siksi että vanha ei toimisi lainkaan vaan siksi että headroom loppuu.
Datavirrat eivät riipu siitä onko laite vielä autossa. Kamerakonfiguraatio, resoluutiot ja FPS päätetään auton suunnitteluvaiheessa ja koko AI-pipeline rakennetaan niiden ympärille.
Tämä ei ole ohjelmistokeskustelu vaan arkkitehtuurikysymys. Piiri optimoidaan datavirralle ja latency-profiilille jotka ovat paljon vakampia kuin yksittäinen malliversio. Siksi optimointi toimii vaikka mallit muuttuvat.

pomk · tänään klo 13:19

Seppo77 sanoi:
Ongelma ei ole yksittäinen HD-frame vaan se että ajetaan useita kameroita samanaikaisesti ja useita neuroverkkoja rinnakkain ja koko pipeline reaaliajassa. Se ei ole "yksi kuvantunnistus" vaan jatkuva monimalli-inferenssi.

Tarve ei tule resoluutiosta vaan latency-vaatimuksesta. Kaikki pitä laskea kymmenissä millisekunneissa jolloin et voi vain "ajaa hitaammin" kuten datacenterissä. Se pakottaa korkean rinnakkaisuuden ja muistikaistan.

Huoh. Kuinka suuren osan tuosta piiristä uskot käytettävän tähän kuvafeedien tulkkaamiseen?

Seppo77 sanoi:
Juuri näin perception on vain osa pipelinea. Lisäksi on tracking, temporal fusion, planning ja control. Piiri mitoitetaan koko pipelineen, ei yhteen malliin.

Ja se pipeline ja sen mallit eivät ole vielä olemassa, millä vaikka FSD saataisiin toimimaan. Miten siis voidaan mitoittaa jotakin kun vaatimukset eivät ole selvillä?

Seppo77 sanoi:
Sama pipeline eri mittakaavassa video, perception (objektit, kaistat, syvyys), temporal fusion. planning. Datacenterissä tätä ajetaan isomalla batchilla ja mallien kehitykseen, autossa yksittäisenä low-latency instanssina.

Siis mallien kehitystäkö nyt tehdään autojen tietokoneilla? Missä maailmassa?

Miksi datacentterissä ajettaisiin FSD autoilla, mutta jossain ”eri mittakaavassa”? Mitä oikeasti tarkoitat tällä?

Seppo77 sanoi:
Terminologia on vähän sekaisin. FSD supervised käyttää samaa pipelinea mutta vaatii kuljettajan valvonnan. Se ei ole täysi autonomia mutta ei myöskään pelkkä kaistavahti

Se on kaistavahti joka osaa käyttää vilkkua. Wau.

Jos FSD on, kuten väität, kiinni vain siitä että ”kapasiteettia on rajoitettu”, niin miksei tätä rajoitetta olla poistettu? Kuulostaa vähintään absurdilta.

Seppo77 sanoi:
Koska mallit kasvavat koko ajan. HW3 riittää nykyisiin versioihin mutta ei enää uusimpiin ilman kompromisseja. Siksi uusi rauta tulee ei siksi että vanha ei toimisi lainkaan vaan siksi että headroom loppuu.
Datavirrat eivät riipu siitä onko laite vielä autossa. Kamerakonfiguraatio, resoluutiot ja FPS päätetään auton suunnitteluvaiheessa ja koko AI-pipeline rakennetaan niiden ympärille.
Tämä ei ole ohjelmistokeskustelu vaan arkkitehtuurikysymys. Piiri optimoidaan datavirralle ja latency-profiilille jotka ovat paljon vakampia kuin yksittäinen malliversio. Siksi optimointi toimii vaikka mallit muuttuvat.

Kai sä nyt tajuat että latenssi on malliriippuvainen juttu? Ei siis voida piiriä suunniteltaessa päättää latenssia jollekkin jos malli ei ole tiedossa.

Mikä on ”latency profile”? Anna konkreettinen esimerkki.

Hirveästi hölynpölyä on tullu netistä luettua kyllä taas kerran.

finWeazel · tänään klo 13:29

Neuroverkko tekee teslan autoissa, roboissa aika paljon muuta kuin "kuvantunnistuksen". End-2-End matalalatenssisia neuroverkkoja joissa raaka manipuloimaton sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Auton tapauksessa tapahtuu paljon muutakin kuin kuvantunnistusta kuten ympärilläolevien asioiden simulointi, reitinsuunnittelu, mikä parkkipaikka on paras jne. Auton pitää ymmärtää onko kävelijä astumassa tiellä, toinen auto jarruttamassa edessä ja mitä se tarkoittaa jne. Juttuja ei myöskään tunnisteta ja simuloida vain 2d kuvasta vaan siellä tehdään voxelityyppinen 3d maailma tyyliin reaaliaikainen nerfs missä asioita simuloidaan ja ymmärretään. Tesla on kertonut että sama fundamentaalinen teknologia autoissa ja roboteissa pohjalla maailman ymmärtämiseksi ja simuloimiseksi.

Nvidialta on hyvä selitys end-2-end neuroverkoilla auton ajamisesta jos asia kiinnostaa. Tesla oli tässä jutussa ensimmäinen, muut kopioi saman idean. Nvidia on tuon oman mallinsa laittanut open sourceen, nvidian malli löytyy mersun uudesta cla:sta: NVIDIA Alpamayo

Asiaa voi mieltää silläkin tavalla, että jos vaikka tuplataan kameroiden resoluutio seuraavassa sensori-iteraatiossa niin todennäköisesti tarvitaan 4x laskentatehoa kun pikselimäärä nelinkertaistuu. Tesla on yleensä päivittänyt sensorit samalla kerralla kun päivitetään tietokone. Nouseeko seuraavassa iteraatiossa kameroiden resoluutio, ei ole edes huhuja asiasta olemassa.

Linkit ja tarkemmat sepostukset löytyy ketjusta: Autonominen ajaminen ja itsestään ajavat autot jos asia oikeasti kiinnostaa muutenkin kuin väittelyn osalta. Tähän ketjuun tuskin kannattaa vääntää asioita jotka on jo tuolla toisessa ketjussa käyty läpi.

Seppo77 · tänään klo 14:10

pomk sanoi:
Huoh. Kuinka suuren osan tuosta piiristä uskot käytettävän tähän kuvafeedien tulkkaamiseen?

Ja se pipeline ja sen mallit eivät ole vielä olemassa, millä vaikka FSD saataisiin toimimaan. Miten siis voidaan mitoittaa jotakin kun vaatimukset eivät ole selvillä?

Pipeline ei ole "keksitty myöhemmin" vaan se on ollut sama rakenne vuosia: kamera, perception, tracking/temporal, planning, control. Mallit kehittyvät mutta tämä rakenne ei muutu. Piiri mitoitetaan tähän rakenteeseen ei yksittäiseen malliversioon.

pomk sanoi:
Siis mallien kehitystäkö nyt tehdään autojen tietokoneilla? Missä maailmassa?

Ei vaan mallit treenataan datacenterissä GPU-klustereilla ja autot tekevät vain inferenssiä. Datacenterissä samaa pipelinea ajetaan batchina mallien kehitykseen ja autossa yksittäisenä low-latency instanssina.

pomk sanoi:
Miksi datacentterissä ajettaisiin FSD autoilla, mutta jossain ”eri mittakaavassa”? Mitä oikeasti tarkoitat tällä?

Koska sama vision sekä planning pipeline toimii molemmissa. Ero on vain optimointikohteessa jossa datacenterissä throughput (batch), autossa latency (reaaliaika) eli sama laskentaprofiili mutta eri käyttötila.

pomk sanoi:
Se on kaistavahti joka osaa käyttää vilkkua. Wau.

Jos FSD on, kuten väität, kiinni vain siitä että ”kapasiteettia on rajoitettu”, niin miksei tätä rajoitetta olla poistettu? Kuulostaa vähintään absurdilta.

Kai sä nyt tajuat että latenssi on malliriippuvainen juttu? Ei siis voida piiriä suunniteltaessa päättää latenssia jollekkin jos malli ei ole tiedossa.

Latency-vaatimus ei tule mallista vaan ajamisesta. Esim. 50–100 ms on käytännön yläraja reaktiole. Malli rakennetaan mahtumaan tähän eikä toisin päin ja siksi latency on arkkitehtuurin lähtökohta eikä lopputulos.

pomk sanoi:
Mikä on ”latency profile”? Anna konkreettinen esimerkki.

Latency profile tarkoittaa että tiedetään etukäteen esim. että yksi frame pitää prosessoida 10–20ms ja koko pipeline 50 ms sisällä ja tämä jaetaan osiin vision 20 ms, fusion 10ms, planning 10–20ms. Piiri optimoidaan tähän budjettiin.

Seppo77 · tänään klo 14:16

finWeazel sanoi:
Neuroverkko tekee teslan autoissa, roboissa aika paljon muuta kuin "kuvantunnistuksen". End-2-End matalalatenssisia neuroverkkoja joissa raaka manipuloimaton sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Auton tapauksessa tapahtuu paljon muutakin kuin kuvantunnistusta kuten ympärilläolevien asioiden simulointi, reitinsuunnittelu, mikä parkkipaikka on paras jne. Auton pitää ymmärtää onko kävelijä astumassa tiellä, toinen auto jarruttamassa edessä ja mitä se tarkoittaa jne. Juttuja ei myöskään tunnisteta ja simuloida vain 2d kuvasta vaan siellä tehdään voxelityyppinen 3d maailma tyyliin reaaliaikainen nerfs missä asioita simuloidaan ja ymmärretään. Tesla on kertonut että sama fundamentaalinen teknologia autoissa ja roboteissa pohjalla maailman ymmärtämiseksi ja simuloimiseksi.

Nvidialta on hyvä selitys end-2-end neuroverkoilla auton ajamisesta jos asia kiinnostaa. Tesla oli tässä jutussa ensimmäinen, muut kopioi saman idean. Nvidia on tuon oman mallinsa laittanut open sourceen, nvidian malli löytyy mersun uudesta cla:sta: NVIDIA Alpamayo

Asiaa voi mieltää silläkin tavalla, että jos vaikka tuplataan kameroiden resoluutio seuraavassa sensori-iteraatiossa niin todennäköisesti tarvitaan 4x laskentatehoa kun pikselimäärä nelinkertaistuu. Tesla on yleensä päivittänyt sensorit samalla kerralla kun päivitetään tietokone. Nouseeko seuraavassa iteraatiossa kameroiden resoluutio, ei ole edes huhuja asiasta olemassa.

Linkit ja tarkemmat sepostukset löytyy ketjusta: Autonominen ajaminen ja itsestään ajavat autot jos asia oikeasti kiinnostaa muutenkin kuin väittelyn osalta. Tähän ketjuun tuskin kannattaa vääntää asioita jotka on jo tuolla toisessa ketjussa käyty läpi.

Tuo on hyvä kuvaus siitä että kyse ei ole pelkästä kuvantunnistuksesta vaan koko perception, planning -pipeline mutta vaikka mallit menevät end-to-end suuntaan niindatavirta ei muutu vaan multi-camera video sisään, ohjaus ulos tiukalla latency-budjetilla. Siksi arkkitehtuuri optimoidaan tälle profiilille eikä yksittäiselle mallille. Lisäksi compute ei skaalaudu suoraan pikselimäärän mukaan koska data downsamplettaan nopeasti eikä mitään täyttä NeRF-tyyppistä 3D-simulaatiota ajeta reaaliajassa autossa.

pomk · tänään klo 14:21

Seppo77 sanoi:
Pipeline ei ole "keksitty myöhemmin" vaan se on ollut sama rakenne vuosia: kamera, perception, tracking/temporal, planning, control. Mallit kehittyvät mutta tämä rakenne ei muutu. Piiri mitoitetaan tähän rakenteeseen ei yksittäiseen malliversioon.

Onko tossa piirillä siis joku osa joka on kustomoitu tiukasti tähän pipeline rakenteeseen? Vaikea uskoa. Tuo kuulostaa varsin geneeriseltä.

Seppo77 sanoi:
Ei vaan mallit treenataan datacenterissä GPU-klustereilla ja autot tekevät vain inferenssiä. Datacenterissä samaa pipelinea ajetaan batchina mallien kehitykseen ja autossa yksittäisenä low-latency instanssina.

Mitä tarkoitat ku kerrot että "datacentterissä ajetaan batchina mallien kehitykseen"?

Seppo77 sanoi:
Koska sama vision sekä planning pipeline toimii molemmissa. Ero on vain optimointikohteessa jossa datacenterissä throughput (batch), autossa latency (reaaliaika) eli sama laskentaprofiili mutta eri käyttötila.

Miksi niitä ajetaan siellä datacentterissä? Onko sillä renkaat?

Seppo77 sanoi:
Latency-vaatimus ei tule mallista vaan ajamisesta. Esim. 50–100 ms on käytännön yläraja reaktiole. Malli rakennetaan mahtumaan tähän eikä toisin päin ja siksi latency on arkkitehtuurin lähtökohta eikä lopputulos.

Huoh. Eli ensin tarvitaan rauta ja ongelma, sitten rakennetaan mallia että saisiko sen tekemään vaaditut asiat kyseisellä raudalla vaaditussa ajassa.

Vielä aiemmin kerroit kuinka rauta on optimoitu mallille, nyt mennäänkin toisin päin?

Seppo77 sanoi:
Latency profile tarkoittaa että tiedetään etukäteen esim. että yksi frame pitää prosessoida 10–20ms ja koko pipeline 50 ms sisällä ja tämä jaetaan osiin vision 20 ms, fusion 10ms, planning 10–20ms. Piiri optimoidaan tähän budjettiin.

Miten tämä piirin optimointi käytännössä tapahtuu? Ottaen siis huomioon että nää mallit joille nyt kirjasit suorituskykytavoitteet eivät ole edes olemassa. Ja tiedostaen että latenssi on malliriippuvainen ominaisuus.

Seppo77 · tänään klo 14:32

pomk sanoi:
Onko tossa piirillä siis joku osa joka on kustomoitu tiukasti tähän pipeline rakenteeseen? Vaikea uskoa. Tuo kuulostaa varsin geneeriseltä.

Mitä tarkoitat ku kerrot että "datacentterissä ajetaan batchina mallien kehitykseen"?

Miksi niitä ajetaan siellä datacentterissä? Onko sillä renkaat?

Huoh. Eli ensin tarvitaan rauta ja ongelma, sitten rakennetaan mallia että saisiko sen tekemään vaaditut asiat kyseisellä raudalla vaaditussa ajassa.

Vielä aiemmin kerroit kuinka rauta on optimoitu mallille, nyt mennäänkin toisin päin?

Miten tämä piirin optimointi käytännössä tapahtuu? Ottaen siis huomioon että nää mallit joille nyt kirjasit suorituskykytavoitteet eivät ole edes olemassa. Ja tiedostaen että latenssi on malliriippuvainen ominaisuus.

Ei mennä "toisinpäin" vaan molemmat tehdään rinnakkain. Piiriä ei optimoida yhdelle mallille vaan datavirralle ja latency-budjetille jotka tulevat ajamisesta. Mallit sitten rakenetaan mahtumaan siihen budjettiin. Sama ilmiö on kaikessa reaaliaikaisessa järjestelmässä eli et voi ensin tehdä mallia vapaasti ja katsoa sitten riittääkö rauta koska auto ei voi odottaa 200 ms päätöstä. Siksi latency on lähtökohta eikä lopputulos.

Tämä on sama kuin pelimoottorissa eli et tee peliä ensin ja katso sitten pyöriikö se 60 fps vaan tiedät että 16 ms per frame on maksimi ja optimoit kaiken siihen. AI-autossa tämä raja on vielä tiukempi.

Optimointi ei perustu malliin vaan workloadiin. Multi-camera video sisään ja reaaliaikainen päätös ulos. Tämä ei muutu vaikka mallit vaihtuvat CNN:stä transformeriin tai end-to-endiin.

Datacenterissä sama pipeline ajetaan batchina eli useita frameja/malleja rinnakkain maksimoiden throughput. Autossa ajetaan yksi instanssi kerrallaan minimoiden latency. Sama laskenta mutta eri optimointitavoite.

Tässä rajoitteet tulevat fysiikasta (reaktioaika) ja datavirrasta (kamerat) eikä mallista ja siksi arkkitehtuuri suunnitellaan näiden mukaan ja mallit pakotetaan mahtumaan siihen.

pomk · tänään klo 14:45

Seppo77 sanoi:
Ei mennä "toisinpäin" vaan molemmat tehdään rinnakkain. Piiriä ei optimoida yhdelle mallille vaan datavirralle ja latency-budjetille jotka tulevat ajamisesta.

Miten sen piirin voi optimoida latenssille tietämättä malleja? En edelleenkään ymmärrä.

Mallin latenssi tulee mallin rakenteesta, ajettuna tietyllä alustalla. Jos malli muuttuu, niin latenssi muuttuu, jos alusta pysyy vakiona.

Et siis voi optimoida jollekkin tietylle latenssille piirisuunnittelua tietämättä malleja. Se ei myöskään voi tapahtua rinnakkain, sillä piirisuunnittelun latenssi on vuosia ja malleja kehitetään jatkuvasti.

"Datavirtakaan" ei määritä latenssia, kuten ihan hyvin tiedät, vaan se malli jolle datavirta syötetään toimii tietyillä laskentaresursseilla tietyllä nopeudella.

Seppo77 sanoi:
Sama ilmiö on kaikessa reaaliaikaisessa järjestelmässä eli et voi ensin tehdä mallia vapaasti ja katsoa sitten riittääkö rauta koska auto ei voi odottaa 200 ms päätöstä. Siksi latency on lähtökohta eikä lopputulos.

Älä ala turhaan selittämään seuraavaksi mitä reaaliaikajärjestelmät ovat. Oleta että tiedän kaiken aiheesta.

Seppo77 sanoi:
Tämä on sama kuin pelimoottorissa eli et tee peliä ensin ja katso sitten pyöriikö se 60 fps vaan tiedät että 16 ms per frame on maksimi ja optimoit kaiken siihen. AI-autossa tämä raja on vielä tiukempi.

Teslan reaktioaika on uusimmalla kaistavahdin versiolla n. 0,2 sekuntia. Arvioisin että raja on siis löysempi.

Seppo77 sanoi:
Optimointi ei perustu malliin vaan workloadiin. Multi-camera video sisään ja reaaliaikainen päätös ulos. Tämä ei muutu vaikka mallit vaihtuvat CNN:stä transformeriin tai end-to-endiin.

Huoh. Miten se optimointi nyt siis tarkalleen tapahtuu? Jos pikseleitä tulee kamerasta vaikka 60 fps 30 fps sijaan niin miten pitää transistorit järjestellä uudestaan?

Tää on ihan täyttä hölynpölyä taas kerran.

Seppo77 · tänään klo 15:30

pomk sanoi:
Miten sen piirin voi optimoida latenssille tietämättä malleja? En edelleenkään ymmärrä.

Piiriä ei optimoida yhdelle mallille vaan laskentaprofiilille. Tiedetään etukäten esim. montako kameraa, FPS-luokka, resoluutioluokka ja että kyse on jatkuvasta videopohjaisesta inferenssistä niin näistä tulee suoraan vaatimukset memory bandwidth, rinnakkaisuus, data movement. Malli sitten rakennetaan mahtumaan tähän budjettiin. Tämä on sama tapa milä kaikki embedded/reaaliaikaiset järjestelmät tehdään.

pomk sanoi:
Mallin latenssi tulee mallin rakenteesta, ajettuna tietyllä alustalla. Jos malli muuttuu, niin latenssi muuttuu, jos alusta pysyy vakiona.

Yksittäisen mallin latenssi tulee mallista ja raudasta kyllä mutta koko järjestelmän latenssivatimus ei tule mallista vaan käyttökohteesta (ajaminen) eli esim. ajaminen vaatii esim. 50–100ms päätöksen, tämä budjetti jaetaan pipelineen ja mallit suunnitellaan siihen mahtuviksi. Et voi tehdä mallia joka ottaa 300ms ja sanoa että “latenssi määräytyi mallista” koska se ei yksinkertaisesti kelpaa käyttöön.

pomk sanoi:
"Datavirtakaan" ei määritä latenssia, kuten ihan hyvin tiedät, vaan se malli jolle datavirta syötetään toimii tietyillä laskentaresursseilla tietyllä nopeudella.

Datavirta ei yksin määritä latenssia mutta se märittää kuinka paljon dataa pitää siirtää per aika ja kuinka paljon rinnakkaisuutta tarvitaan. Latenssi taas tulee käyttökohteesta (reaktioaika). Näistä kahdesta yhdessä syntyy se “latency profile”,johon rauta mitoitetaan.

pomk sanoi:
Älä ala turhaan selittämään seuraavaksi mitä reaaliaikajärjestelmät ovat. Oleta että tiedän kaiken aiheesta.

Hyvä. Tämä on juuri reaaliaikajärjestelmä. Pointti ei ollut selittää sitä, vaan että sama periaate pätee täällä esim. on kova aikaraja ja kaikki optimoidan siihen. Malli ei saa rikkoa tätä rajaa.

pomk sanoi:
Teslan reaktioaika on uusimmalla kaistavahdin versiolla n. 0,2 sekuntia. Arvioisin että raja on siis löysempi.

0.2s on koko järjestelmän havaittu käyttäytyminen ei pelkä inference-latenssi. Siinä on mukana sensoriviive, filtteröinti ja kontrolli.
Varsinainen inferenssibudjetti on tästä vain osa joka tyypillisesti kymmeniä millisekunteja.

pomk sanoi:
Huoh. Miten se optimointi nyt siis tarkalleen tapahtuu? Jos pikseleitä tulee kamerasta vaikka 60 fps 30 fps sijaan niin miten pitää transistorit järjestellä uudestaan?

Ei. Piiri suunnitellaan tietyle kuormaluokalle (throughput ja latency headroom) jos FPS kasvaa niin kuorma kasvaa ja käytetään enemmän rinnakkaisuutta/kapasiteettia. Sama rauta mutta eri käyttöaste ja tätä varten jätetään headroom.

pomk sanoi:
Tää on ihan täyttä hölynpölyä taas kerran.

Tässä ei oikeastaan ole mitään erikoista koska tämä on ihan perus tapa suunnitella eli sulautettuja järjestelmiä, DSP/AI-kiihdyttimiä ja pelimoottoreita. Rajoitteet tulevat ympäristöstä ja algoritmit sovitetaan niihin.

pomk · tänään klo 15:48

Seppo77 sanoi:
Piiriä ei optimoida yhdelle mallille vaan laskentaprofiilille. Tiedetään etukäten esim. montako kameraa, FPS-luokka, resoluutioluokka ja että kyse on jatkuvasta videopohjaisesta inferenssistä niin näistä tulee suoraan vaatimukset memory bandwidth, rinnakkaisuus, data movement. Malli sitten rakennetaan mahtumaan tähän budjettiin. Tämä on sama tapa milä kaikki embedded/reaaliaikaiset järjestelmät tehdään.

Se malli vaan valitettavasti lopulta määrittää mikä on latenssi. Sitä ei myöskään voi aina 'rakentaa mahtumaan budjettiin', vaan voidaan jäädä tavoitteesta kuten FSD:n kanssa on jääty. Jos tämä menisi kuten esität, niin jo ensimmäinen HW versio jota myytiin autossa yhdessä FSD lisenssin kanssa voisi FSD:tä hyödyntää. Todellisuus kuitenkin oli että tesla ei vieläkään tiedä mitä laskentaresursseja FSD lopulta tulee tarvitsemaan.

Joka kerta yllätytään että kuinka monimutkaisia malleja tarvitaan, sitten suunnitellaan uusi hardis, ja sitten taas todetaan että ei riittänyt. Se siitä laskentaprofiilille optimoimisesta, mitä se sitten käytännössä tarkoittaakaan.

Seppo77 sanoi:
Yksittäisen mallin latenssi tulee mallista ja raudasta kyllä mutta koko järjestelmän latenssivatimus ei tule mallista vaan käyttökohteesta (ajaminen) eli esim. ajaminen vaatii esim. 50–100ms päätöksen, tämä budjetti jaetaan pipelineen ja mallit suunnitellaan siihen mahtuviksi. Et voi tehdä mallia joka ottaa 300ms ja sanoa että “latenssi määräytyi mallista” koska se ei yksinkertaisesti kelpaa käyttöön.

Sekoitat että mistä mallin latenssi tulee, ja sen että mikä on käytännön vaatimus tuossa käytössä.

Hyvä kuitenkin että ollaan nyt samaa mieltä siitä että malli määrittää laskennan latenssia. Tästä voisi sitten jatkaa loogisesti että kun malli ei ole valmis, niin miten voidaan rauta suunnitella siten että malli jota ei vielä ole olemassa voidaan ajaa sillä riittävän nopeasti jotta pysytään reaaliaikatavoitteissa.

Hoksaatko?

Seppo77 sanoi:
Datavirta ei yksin määritä latenssia mutta se märittää kuinka paljon dataa pitää siirtää per aika ja kuinka paljon rinnakkaisuutta tarvitaan. Latenssi taas tulee käyttökohteesta (reaktioaika). Näistä kahdesta yhdessä syntyy se “latency profile”,johon rauta mitoitetaan.

Taas sekoitat latenssin ja latenssivaatimukset.
Datavirta on noissa autoissa ihan todella pientä, ei tarvitse kauheasti transistoreja käännellä eri asentoihin sen vuoksi.

Datavirta ei määritä latenssia. Malli määrittää latenssin.

Seppo77 sanoi:
Hyvä. Tämä on juuri reaaliaikajärjestelmä. Pointti ei ollut selittää sitä, vaan että sama periaate pätee täällä esim. on kova aikaraja ja kaikki optimoidan siihen. Malli ei saa rikkoa tätä rajaa.

Aiemmin taas kerroit kuinka tässä on rauta optimoitu softaan. Nyt taas toisin päin.

Seppo77 sanoi:
0.2s on koko järjestelmän havaittu käyttäytyminen ei pelkä inference-latenssi. Siinä on mukana sensoriviive, filtteröinti ja kontrolli.
Varsinainen inferenssibudjetti on tästä vain osa joka tyypillisesti kymmeniä millisekunteja.

Luulin että tässä keskusteltiin autoista eikä inferenssistä. Datavirratkaan ei liity inferenssiin ja on olleet kovasti esillä.

Seppo77 sanoi:
Ei. Piiri suunnitellaan tietyle kuormaluokalle (throughput ja latency headroom) jos FPS kasvaa niin kuorma kasvaa ja käytetään enemmän rinnakkaisuutta/kapasiteettia. Sama rauta mutta eri käyttöaste ja tätä varten jätetään headroom.

Et vastannut kysymykseen.

Jos kameran fps tuplataan, niin miten piiri pitäisi optimoida eri tavalla. Esitit että tämä piiri on nimenomaan optimoitu RAUTATASOLLA jotenkin näihin datavirtoihin. Tämä on täyttä hölynpölyä. Tuolla piirillä ei ole mitään kameran resoluutiospesifiä optimointia missään.

Yliprovisointi taas on hyvä tapa kertoa että piiriä ei oltukkaan optimoitu jollekkin tietylle kuormalle, vaan jollekkin tuntemattomalle isommalle kuormalle.

Seppo77 sanoi:
Tässä ei oikeastaan ole mitään erikoista koska tämä on ihan perus tapa suunnitella eli sulautettuja järjestelmiä, DSP/AI-kiihdyttimiä ja pelimoottoreita. Rajoitteet tulevat ympäristöstä ja algoritmit sovitetaan niihin.

Jep. Nyt sekoitat asiaa missä on tiedossa algoritmit ja vaatimukset, siihen että vaatimukset ovat epäselvät ja kukaan ei ole algoritmiakaan keksinyt, ja sitten heität ilmoille että tuntemattoman algoritmin tuntemattomat vaatimukset huomioiden osattaisiin tehdä optimoitu piiri. Tämä on tosiasiassa mahdollista vasta kun on toimiva algoritmi.

Seppo77 · tänään klo 16:08

pomk sanoi:
Se malli vaan valitettavasti lopulta määrittää mikä on latenssi. Sitä ei myöskään voi aina 'rakentaa mahtumaan budjettiin', vaan voidaan jäädä tavoitteesta kuten FSD:n kanssa on jääty. Jos tämä menisi kuten esität, niin jo ensimmäinen HW versio jota myytiin autossa yhdessä FSD lisenssin kanssa voisi FSD:tä hyödyntää. Todellisuus kuitenkin oli että tesla ei vieläkään tiedä mitä laskentaresursseja FSD lopulta tulee tarvitsemaan.

Yksittäisen mallin latenssi kyllä määräytyy mallista ja raudastaeli tästä ollaan samaa mieltä mutta tuotantojärjestelmässä malli ei ole vapaa muuttuja vaan sitä rajoittaa käyttökohde. Eli jos malli ei mahdu latency-budjettiin niin sitä ei ajeta sellaisenaan vaan sitä pienennetään, kvantisoidaan ja jaetaan useaan vaiheeseen. Tämä on ihan normaalia käytäntöä kaikessa edge/embedded AI:ssa. Se että HW-versioita tulee lisää ei kumoa tätä vaan se kertoo että headroomia tarvitan lisää mallien kasvaessa.

pomk sanoi:
Joka kerta yllätytään että kuinka monimutkaisia malleja tarvitaan, sitten suunnitellaan uusi hardis, ja sitten taas todetaan että ei riittänyt. Se siitä laskentaprofiilille optimoimisesta, mitä se sitten käytännössä tarkoittaakaan.

Tämä ei ole ristiriita vaan juuri odotettu kehityskaari eli arkkitehtuuri tehdään tietylle workload-luokalle, mallit kasvavat ajan myötä ja lopulta kapasiteetti ei riitä on uusi rauta. Sama ilmiö on GPU:issa, puhelimissa ja käytännössä kaikessa laskennassa. Optimointi ei tarkoita että yksi rauta riittää ikuisesti vaan että se on tehokas sille kuormaluokale mihin se on suunniteltu.

pomk sanoi:
Sekoitat että mistä mallin latenssi tulee, ja sen että mikä on käytännön vaatimus tuossa käytössä.

En sekoita vaan erotan ne nimenomaan mallin latenssi on malli ja rauta, järjestelmän latensivaatimus on käyttökohde. Suunnittelu lähtee jälkimmäisestä. Malli ei saa rikkoa sitä koska muuten se ei kelpaa käyttöön.

pomk sanoi:
Hyvä kuitenkin että ollaan nyt samaa mieltä siitä että malli määrittää laskennan latenssia. Tästä voisi sitten jatkaa loogisesti että kun malli ei ole valmis, niin miten voidaan rauta suunnitella siten että malli jota ei vielä ole olemassa voidaan ajaa sillä riittävän nopeasti jotta pysytään reaaliaikatavoitteissa.

Hoksaatko?

Koska ei suunnitella yhdelle mallille vaan kuormaluokalle. Tiedetään etukäteen multi-camera video input, jatkuva inferenssi (ei batch), tensorioperaatioihin perustuva laskenta ja target latency-luokka. Näistä saadaan riittävä arvio eli memory bandwidth, compute throughput ja rinnakkaisuus. Tätä täydennetään headroomilla ja prototyypeillä. Täydellistä tietoa ei ole koskaan ja tämä on normaalia ASIC-suunnittelussa.

pomk sanoi:
Taas sekoitat latenssin ja latenssivaatimukset.
Datavirta on noissa autoissa ihan todella pientä, ei tarvitse kauheasti transistoreja käännellä eri asentoihin sen vuoksi.

Datavirta ei määritä latenssia. Malli määrittää latenssin.

Aiemmin taas kerroit kuinka tässä on rauta optimoitu softaan. Nyt taas toisin päin.

Datavirta ei yksin määritä latenssia mutta se määrittää kuinka paljon dataa pitää käsitellä per aika ja kuinka paljon rinnakkaisuutta tarvitaan. Lisäksi kuorma ei ole pelkkä “pikselivirta” vaan useita kameroita, useita verkkoja per frame ja temporal processing. Laskenta syntyy datavirran käsittelystä eikä pelkästä siirosta.

Inferenssi on nimenomaan datavirran prosessointia. Ilman datavirtaa ei ole inferenssiä ja datavirran luonne määrittää kuinka paljon laskentaa per sekunti tarvitaan ja kuinka paljon dataa liikkuu muistissa. Nämä ovat keskeisiä asioita piiritasolla.

Tämä ei ole joko–tai vaan co-design eli rauta optimoidaan workloadille (video + tensorilaskenta + low latency) ja mallit optimoidaan mahtumaan siihen. Tämä tehdään rinnakkain eikä peräkkäin.

pomk sanoi:
Luulin että tässä keskusteltiin autoista eikä inferenssistä. Datavirratkaan ei liity inferenssiin ja on olleet kovasti esillä.

Auton “älykkyys” on käytännössä inferenssiä. Se mitä auto tekee (havainto, päätös, ohjaus) on juuri se pipeline, jonka raskain osa on inferenssi. Siksi nämä eivät ole erilisiä asioita.

pomk sanoi:
Et vastannut kysymykseen.

Jos kameran fps tuplataan, niin miten piiri pitäisi optimoida eri tavalla. Esitit että tämä piiri on nimenomaan optimoitu RAUTATASOLLA jotenkin näihin datavirtoihin. Tämä on täyttä hölynpölyä. Tuolla piirillä ei ole mitään kameran resoluutiospesifiä optimointia missään.

Piiriä ei muuteta jälkikäteen vaan se suunnitellaan kuormaluokalle jossa on headroom. Jos FPS kasvaa niin kuorma kasvaa lineaarisesti ja käytetään enemmän rinnakkaisuutta. Sama rauta mutta suurempi käyttöaste. Tätä varten kapasiteettia ei mitoiteta täyteen 100%:iin.

Ei ole kovakoodattua “tälle resoluutiolle” logiikkaa mutta arkkitehturi on silti optimoitu tietylle datavirran suuruusluokalle eli tietylle rinnakkaisuuden tasolle ja tietylle memory bandwidth -luokalle. Tämä on juuri sitä piiritason optimointia.

pomk sanoi:
Yliprovisointi taas on hyvä tapa kertoa että piiriä ei oltukkaan optimoitu jollekkin tietylle kuormalle, vaan jollekkin tuntemattomalle isommalle kuormalle.

Yliprovisointi (headroom) ei tarkoita ettei olisi optimointia vaan että järjestelmä kestää mallien kasvua ja sama rauta toimii useammalla malliversiolla. Tämä on käytännössä välttämätöntä kaikessa pitkäikäisessä embedded-raudassa.

pomk sanoi:
Jep. Nyt sekoitat asiaa missä on tiedossa algoritmit ja vaatimukset, siihen että vaatimukset ovat epäselvät ja kukaan ei ole algoritmiakaan keksinyt, ja sitten heität ilmoille että tuntemattoman algoritmin tuntemattomat vaatimukset huomioiden osattaisiin tehdä optimoitu piiri. Tämä on tosiasiassa mahdollista vasta kun on toimiva algoritmi.

Ei optimoida tuntemattomalle algoritmille vaan tunnetulle laskentaluokalle jossa video, tensorilaskenta, low-latency inference, multi-stream processing. Algoritmit vaihtuvat (CNN, transformer, E2E),mutta nämä perusominaisudet eivät.

Siksi optimointi on mahdollista ennen lopullista mallia.

pomk · tänään klo 16:25

Seppo77 sanoi:
Yksittäisen mallin latenssi kyllä määräytyy mallista ja raudastaeli tästä ollaan samaa mieltä mutta tuotantojärjestelmässä malli ei ole vapaa muuttuja vaan sitä rajoittaa käyttökohde. Eli jos malli ei mahdu latency-budjettiin niin sitä ei ajeta sellaisenaan vaan sitä pienennetään, kvantisoidaan ja jaetaan useaan vaiheeseen. Tämä on ihan normaalia käytäntöä kaikessa edge/embedded AI:ssa. Se että HW-versioita tulee lisää ei kumoa tätä vaan se kertoo että headroomia tarvitan lisää mallien kasvaessa.

Tai toisin sanottuna ei voida vielä optimoida hardista mallia varten, koska malli ei ole tiedossa. Eikö?

Me ollaan jo aika lähellä.

Seppo77 sanoi:
Tämä ei ole ristiriita vaan juuri odotettu kehityskaari eli arkkitehtuuri tehdään tietylle workload-luokalle, mallit kasvavat ajan myötä ja lopulta kapasiteetti ei riitä on uusi rauta. Sama ilmiö on GPU:issa, puhelimissa ja käytännössä kaikessa laskennassa. Optimointi ei tarkoita että yksi rauta riittää ikuisesti vaan että se on tehokas sille kuormaluokale mihin se on suunniteltu.

No kerro nyt että mille kuormalle tämä on muka optimoitu.

Aiemmin oli tosi tarkasti laitettu että jollekkin pipelinelle ja datamäärille tiukka optimointi, ja nyt ollaan jo 'kuormaluokassa' ja että on ihan odotettua että tämä ei sovellu siihen käyttöön mille se on väittämäsi mukaan 'optimoitu'.

Seppo77 sanoi:
En sekoita vaan erotan ne nimenomaan mallin latenssi on malli ja rauta, järjestelmän latensivaatimus on käyttökohde. Suunnittelu lähtee jälkimmäisestä. Malli ei saa rikkoa sitä koska muuten se ei kelpaa käyttöön.

No tietysti. Käytä sitten oikeita sanoja. Latenssi on viive jollekkin laskutoimitukselle tms. Latenssivaatimus on taas se aikabudjetti mitä voidaan käyttää.
Malli määrittää latenssin. Aikabudjetti määrittää että kuinka hyvän mallin ehtii ajamaan.

Seppo77 sanoi:
Koska ei suunnitella yhdelle mallille vaan kuormaluokalle. Tiedetään etukäteen multi-camera video input, jatkuva inferenssi (ei batch), tensorioperaatioihin perustuva laskenta ja target latency-luokka. Näistä saadaan riittävä arvio eli memory bandwidth, compute throughput ja rinnakkaisuus. Tätä täydennetään headroomilla ja prototyypeillä. Täydellistä tietoa ei ole koskaan ja tämä on normaalia ASIC-suunnittelussa.

Miksei tätä tehty joskus ennen jos kerran on niin helppoa?

Edelleen, kuormaluokka ei ole tiedossa, sillä ei tiedetä millainen malli tuohon tarvitaan. Ymmärrätkö?

Seppo77 sanoi:
Datavirta ei yksin määritä latenssia mutta se määrittää kuinka paljon dataa pitää käsitellä per aika ja kuinka paljon rinnakkaisuutta tarvitaan. Lisäksi kuorma ei ole pelkkä “pikselivirta” vaan useita kameroita, useita verkkoja per frame ja temporal processing. Laskenta syntyy datavirran käsittelystä eikä pelkästä siirosta.

Inferenssi on nimenomaan datavirran prosessointia. Ilman datavirtaa ei ole inferenssiä ja datavirran luonne määrittää kuinka paljon laskentaa per sekunti tarvitaan ja kuinka paljon dataa liikkuu muistissa. Nämä ovat keskeisiä asioita piiritasolla.

Tämä ei ole joko–tai vaan co-design eli rauta optimoidaan workloadille (video + tensorilaskenta + low latency) ja mallit optimoidaan mahtumaan siihen. Tämä tehdään rinnakkain eikä peräkkäin.

Käytäkö sä jotain viiden pennin generatiivista tekoälyä tän paskan suoltamiseen?

Datavirta ei määritä latenssia. Malli määrittää latenssin. Tämä on yksinkertainen todellisuus missä eletään. Datavirran latenssi on minimaalinen teslan kamerasysteemeillä.

Seppo77 sanoi:
Auton “älykkyys” on käytännössä inferenssiä. Se mitä auto tekee (havainto, päätös, ohjaus) on juuri se pipeline, jonka raskain osa on inferenssi. Siksi nämä eivät ole erilisiä asioita.

Mitä tarkoitat?

Seppo77 sanoi:
Jos FPS kasvaa niin kuorma kasvaa lineaarisesti ja käytetään enemmän rinnakkaisuutta. Sama rauta mutta suurempi käyttöaste. Tätä varten kapasiteettia ei mitoiteta täyteen 100%:iin.

Kuorma ei kasva lineaarisesti FPS:n mukaan. Tämä on ihan perusjuttuja kun kyse on monimutkaisista MV systeemeistä.

Seppo77 sanoi:
Yliprovisointi (headroom) ei tarkoita ettei olisi optimointia vaan että järjestelmä kestää mallien kasvua ja sama rauta toimii useammalla malliversiolla. Tämä on käytännössä välttämätöntä kaikessa pitkäikäisessä embedded-raudassa.

Eli että on suunniteltu isommalle mallille kuin mitä on kuviteltu tarvittavan. kiitos.

Seppo77 sanoi:
Ei optimoida tuntemattomalle algoritmille vaan tunnetulle laskentaluokalle jossa video, tensorilaskenta, low-latency inference, multi-stream processing. Algoritmit vaihtuvat (CNN, transformer, E2E),mutta nämä perusominaisudet eivät.

Siksi optimointi on mahdollista ennen lopullista mallia.

Käyttäisit edes kovemman tokenihinnan mallia. Ihan uskomatonta että kehtaat suoltaa tämmöstä paskaa tänne.

Edit: grokilla vieläpä?!? Huutonaurua.

Asenna edes claude ittelles.

Seppo77 · tänään klo 16:42

tuplat voi poistaa.

Seppo77 · tänään klo 16:44

pomk sanoi:
Tai toisin sanottuna ei voida vielä optimoida hardista mallia varten, koska malli ei ole tiedossa. Eikö?

Me ollaan jo aika lähellä.

No kerro nyt että mille kuormalle tämä on muka optimoitu.

Aiemmin oli tosi tarkasti laitettu että jollekkin pipelinelle ja datamäärille tiukka optimointi, ja nyt ollaan jo 'kuormaluokassa' ja että on ihan odotettua että tämä ei sovellu siihen käyttöön mille se on väittämäsi mukaan 'optimoitu'.

No tietysti. Käytä sitten oikeita sanoja. Latenssi on viive jollekkin laskutoimitukselle tms. Latenssivaatimus on taas se aikabudjetti mitä voidaan käyttää.
Malli määrittää latenssin. Aikabudjetti määrittää että kuinka hyvän mallin ehtii ajamaan.

Miksei tätä tehty joskus ennen jos kerran on niin helppoa?

Edelleen, kuormaluokka ei ole tiedossa, sillä ei tiedetä millainen malli tuohon tarvitaan. Ymmärrätkö?

Käytäkö sä jotain viiden pennin generatiivista tekoälyä tän paskan suoltamiseen?

Datavirta ei määritä latenssia. Malli määrittää latenssin. Tämä on yksinkertainen todellisuus missä eletään. Datavirran latenssi on minimaalinen teslan kamerasysteemeillä.

Mitä tarkoitat?

Kuorma ei kasva lineaarisesti FPS:n mukaan. Tämä on ihan perusjuttuja kun kyse on monimutkaisista MV systeemeistä.

Eli että on suunniteltu isommalle mallille kuin mitä on kuviteltu tarvittavan. kiitos.

Käyttäisit edes kovemman tokenihinnan mallia. Ihan uskomatonta että kehtaat suoltaa tämmöstä paskaa tänne.

Edit: grokilla vieläpä?!? Huutonaurua.

Asenna edes claude ittelles.

Tässä ero meidän välillä on se että sinä katsot tätä yksittäisen mallin näkökulmasta ja minä koko järjestelmän näkökulmasta ja juuri järjestelmän reunaehdot (latency ja datavirta) ohjaavat arkkitehturia enemmän kuin yksittäinen malliversio. Yksittäisen mallin latenssi tulee mallista ja raudasta eikä siitä ei ole erimielisyyttä. Mutta järjestelmän latenssivaatimus ei tule mallista vaan käyttökohteesta (ajaminen) ja se asettaa aikabudjetin. Rauta suunitellaan tälle kuormaluokalle (multi-camera video, tensorilaskenta ja low-latency) ja mallit rakennetaan mahtumaan siihen eikä toisin päin. Se että HW päivittyy ajan myötä ei kumoa tätä vaan kertoo että mallit kasvavat ja headroom loppuu mikä on täysin normaalia kaikessa laskennassa.

pomk · tänään klo 16:46

Seppo77 sanoi:
Tässä ero meidän välillä on se että sinä katsot tätä yksittäisen mallin näkökulmasta ja minä koko järjestelmän näkökulmasta ja juuri järjestelmän reunaehdot (latency ja datavirta) ohjaavat arkkitehturia enemmän kuin yksittäinen malliversio. Yksittäisen mallin latenssi tulee mallista ja raudasta eikä siitä ei ole erimielisyyttä. Mutta järjestelmän latenssivaatimus ei tule mallista vaan käyttökohteesta (ajaminen) ja se asettaa aikabudjetin. Rauta suunitellaan tälle kuormaluokalle (multi-camera video, tensorilaskenta ja low-latency) ja mallit rakennetaan mahtumaan siihen eikä toisin päin. Se että HW päivittyy ajan myötä ei kumoa tätä vaan kertoo että mallit kasvavat ja headroom loppuu mikä on täysin normaalia kaikessa laskennassa.

Mistä lähin olen tarkastellut tätä yksittäisen mallin näkökulmasta?

eikö end-2-end neuroverkko ole periaatteessa vain yksi malli muutenkin?

Ehkä grok osaa tuohonkin vastata.

Seppo77 · tänään klo 16:54

pomk sanoi:
Mistä lähin olen tarkastellut tätä yksittäisen mallin näkökulmasta?

eikö end-2-end neuroverkko ole periaatteessa vain yksi malli muutenkin?

Ehkä grok osaa tuohonkin vastata.

Esim. “malli määrittää latenssin”, “datavirta ei määritä latenssia”, “ei voi suunnitella rautaa ilman että malli on tiedosa”. Nuo kaikki lähtevät siitä oletuksesta että malli on se ensisijainen määrittävä tekijä. Et siis ole “väärässä” siinä että malli vaikuttaa latenssiin vaan se on totta mutta se ei ole se kohta mistä suunnittelu lähtee ja siinä kohtaa näkökulma eroaa. Siinä kohtaa missä sanot että "malli määrittää latenssin" katsot asiaa mallin näkökulmasta ja järjestelmätasolla lähtökohta on se aikabudjetti johon mallin on mahdutava.

pomk · tänään klo 17:07

Seppo77 sanoi:
Esim. “malli määrittää latenssin”, “datavirta ei määritä latenssia”, “ei voi suunnitella rautaa ilman että malli on tiedosa”. Nuo kaikki lähtevät siitä oletuksesta että malli on se ensisijainen määrittävä tekijä. Et siis ole “väärässä” siinä että malli vaikuttaa latenssiin vaan se on totta mutta se ei ole se kohta mistä suunnittelu lähtee ja siinä kohtaa näkökulma eroaa.

Tervetuloa takaisin itse kirjoitetun tekstin pariin.

Kyllä sä voit suunnitella rautaa ilman mallia, nvidia tekee sitä koko ajan. Kyse on ollut siitä että miten olematon malli mukamas ajaisi jonkun piirin kehitystä muilla perustein kuin ”isoin mitä uskalletaan tilata”, kuten nyt on tehty. Laskentatarkkuuden suhteen voi jotain yrittää arvata oikein vaaditut pari vuotta etukäteen, mutta siihen se oikeastaan jää.

Seppo77 sanoi:
Siinä kohtaa missä sanot että "malli määrittää latenssin" katsot asiaa mallin näkökulmasta ja järjestelmätasolla lähtökohta on se aikabudjetti johon mallin on mahdutava.

Ei. Käyttötarkoutus määrittää mallin, ja sitten toivotaan että se mahtuu latenssiltaan ”optimoidun” raudan aikabudjettiin.

Joko FSD saavutetaan, tai sitten ei. Sitä ei voi pakottaa toimimaan taskulaskimessa.

Seppo77 · tänään klo 17:14

pomk sanoi:
Tervetuloa takaisin itse kirjoitetun tekstin pariin.

Kyllä sä voit suunnitella rautaa ilman mallia, nvidia tekee sitä koko ajan. Kyse on ollut siitä että miten olematon malli mukamas ajaisi jonkun piirin kehitystä muilla perustein kuin ”isoin mitä uskalletaan tilata”, kuten nyt on tehty. Laskentatarkkuuden suhteen voi jotain yrittää arvata oikein vaaditut pari vuotta etukäteen, mutta siihen se oikeastaan jää.

Ei. Käyttötarkoutus määrittää mallin, ja sitten toivotaan että se mahtuu latenssiltaan ”optimoidun” raudan aikabudjettiin.

Joko FSD saavutetaan, tai sitten ei. Sitä ei voi pakottaa toimimaan taskulaskimessa.

Tässä me ollaan sitten itse asiassa aika lähellä samaa mieltä mutta painotus menee eri kohtaan. Olet oikeassa siinä että käyttötarkoitus määrittää millainen malli tarvitaan mutta se ei tarkoita että malli olisi vapaa muttuja vaan että käyttötarkoitus määrittää sekä mallin että aikabudjetin joka taas rajoittaa millainen malli on käytänössä mahdollinen eli malli ja rauta eivät ole peräkkäin vaan rinnakkain kehittyviä.

pomk · tänään klo 17:25

Seppo77 sanoi:
Tässä me ollaan sitten itse asiassa aika lähellä samaa mieltä mutta painotus menee eri kohtaan. Olet oikeassa siinä että käyttötarkoitus määrittää millainen malli tarvitaan mutta se ei tarkoita että malli olisi vapaa muttuja vaan että käyttötarkoitus määrittää sekä mallin että aikabudjetin joka taas rajoittaa millainen malli on käytänössä mahdollinen eli malli ja rauta eivät ole peräkkäin vaan rinnakkain kehittyviä.

Ei ne voi kehittyä rinnakkain niiden massiivisesti eroavien aikaskaalojen takia. Sun pitää monta vuotta etukäteen arvata että millanen malli lopulta vaaditaan johonkin asiaan mitä ei vielä osata tehdä.

Jonkun muun tuotteen kohdalla voisi kokeilla kaupasta saatavia eri kiihdyttimiä ja valita sen jolla reaaliaikavaatimukset täyttyvät, ja pistää sen tuotteeseen, mutta nyt ei tiedetä edes ajettavaa kuormaa ja kiihdyttimien kokeilussa viive on 2-3 vuotta.

Malli on hyvinkin vapaa muuttuja, jota toki pyritään pitämään mahdollisen pienenä. Kukaan kun ei vielä tiedä millainen on FSD malli ja mitkä sen laskentavaatimukset tulevat olemaan jotta pysytään reaaliaikatavotteissa.

Tesla sai AI5-piirin valmiiksi

Banhammer

Ehdotuksia otetaan vastaan

Banhammer

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi