NVIDIAn Vera-prosessoreista löytyi PCIe-yhteensopivuusongelma

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
24 653
NVIDIAn Vera-prosessoreista on löytynyt PCI Express -yhteensopivuusongelma, jonka myötä vain NVIDIAn omat kiihdyttimet toimivat ongelmitta prosessoreiden kanssa.

Vera-prosessorin kerrotaan tuottavan virheellisiä osoitetietoja tietyissä tilanteissa, kun käytössä on PCIe Memory-Mapped I/O eli MMIO. Ongelma pahenee entisestään, jos käytössä on Armin Normal Non-Cacheable Memory eli MT_NORMAL_NC.

Kyseessä ei ole ensimmäinen kerta, kun vastaavaa tapahtuu, vaan myös Amperen Altra-prosessoreissa on löytynyt vastaavaa ongelmaa MMIO-käytössä. Ampere on korjannut oman ongelmansa Linux-kernelin muutoksilla. NVIDIA kykenee korjaamaan ongelman laitteistokohtaisilla Linux-kerneleillä ja yhtiöllä on tiettävästi jo nyt olemassa päivitys, joka muuttaa MT_NORMAL_NC:n Device-nGnRE:ksi (non-Gathering, non-Reordering, Early aknowledgement), mutta sen käyttö voi aiheuttaa korkeampia viiveitä tietyissä tilanteissa.

Lähde: NVIDIA "Vera" CPUs Contain PCIe Hardware Compatibility Flaw Impacting non-NVIDIA GPUs
 
Ei tuolla taida olla mitään oikeaa merkitystä kun ainakin edellinen nvidian arm konesali cpu oli käytössä lähinnä vain nvidian gpu:n kanssa nvlink-pohjaisen väylän yli. Jotain harvoja vain cpu klustereitakin ollut. Kukaan ei ole tainnut tuotantoon laittaa konfiguraatiota nvidian arm cpu + pcie:n yli ei nvidia kiihdytin. PCIE on naurettavan hidas vs. nvlink kiihdytinkäytössä.

Nvidia yrittää muillekin nvlink:ia myydä kuten nähty mediatek, intel ja SiFive diileistä, sifive uuutta SiFive to Power Next-Gen RISC-V AI Data Centers with NVIDIA NVLink™ Fusion
 
Viimeksi muokattu:
Ei tuolla taida olla mitään oikeaa merkitystä kun ainakin edellinen nvidian arm konesali cpu oli käytössä lähinnä vain nvidian gpu:n kanssa nvlink-pohjaisen väylän yli. Jotain harvoja vain cpu klustereitakin ollut. Kukaan ei ole tainnut tuotantoon laittaa konfiguraatiota nvidian arm cpu + pcie:n yli ei nvidia kiihdytin. PCIE on naurettavan hidas vs. nvlink kiihdytinkäytössä.

Nvidia yrittää muillekin nvlink:ia myydä kuten nähty mediatek, intel ja SiFive diileistä, sifive uuutta SiFive to Power Next-Gen RISC-V AI Data Centers with NVIDIA NVLink™ Fusion

Melkoista vakavan bugin whitewashaamista.

Sinne PCIE:n taakse voi laittaa vaikka kuinka paljon erilaisia laitteita, ei vaan pelkkiä GPUita.

Tai siis voisi laittaa, jos ne toimisivat.

Esim. jos tarvitaan lisää verkkokaistaa nopeampaan kommunikaatioon verkon yli, laitetaan pcie-väylään lisää verkkokopiirejä. Tai sitten ei laitetakaan näille prossuille.
 
Viimeksi muokattu:
Melkoista vakavan bugin whitewashaamista.

Sinne PCIE:n taakse voi laittaa vaikka kuinka paljon erilaisia laitteita, ei vaan pelkkiä GPUita.

Tai siis voisi laittaa, jos ne toimisivat.

Esim. jos tarvitaan lisää verkkokaistaa nopeampaan kommunikaatioon verkon yli, laitetaan pcie-väylään lisää verkkokopiirejä. Tai sitten ei laitetakaan näille prossuille.
Ja nykyisin kaikki SSD-levyt ovat palvelimissa PCIe -väylässä kiinni.
 
Ja nykyisin kaikki SSD-levyt ovat palvelimissa PCIe -väylässä kiinni.
Toimivat tn. yhtä hyvin kuin muissakin arm prossuissa.
Melkoista vakavan bugin whitewashaamista.

Sinne PCIE:n taakse voi laittaa vaikka kuinka paljon erilaisia laitteita, ei vaan pelkkiä GPUita.

Tai siis voisi laittaa, jos ne toimisivat.

Esim. jos tarvitaan lisää verkkokaistaa nopeampaan kommunikaatioon verkon yli, laitetaan pcie-väylään lisää verkkokopiirejä. Tai sitten ei laitetakaan näille prossuille.
Noo nvidian tuntien saattavat whitelistata vain omat mellannoxin niccinsä toimimaan tuolla, mutta epäilen etteivät sentään siihen rupea...
 
Melkoista vakavan bugin whitewashaamista.

Sinne PCIE:n taakse voi laittaa vaikka kuinka paljon erilaisia laitteita, ei vaan pelkkiä GPUita.

Tai siis voisi laittaa, jos ne toimisivat.

Esim. jos tarvitaan lisää verkkokaistaa nopeampaan kommunikaatioon verkon yli, laitetaan pcie-väylään lisää verkkokopiirejä. Tai sitten ei laitetakaan näille prossuille.
AP:ssa puhuttiin vain vain "impacting non nvidia gpu's" ja "NVIDIA GPUs are co-designed with "Vera" CPUs in mind and its specific memory ordering, so no issues are present when the two are running together."

En usko, että löytyy asiakasta joka veraa käyttäisi muun kuin nvidian gpu:n kanssa. Muut laitteet nvidian ekosysteemistä lienee ns. toimivia esim. ne mellanox verkkokortit ja ssd:t kun noudattanevat samaa suunniteltu toimimaan yhdessä paradigmaa. Vera-rubin on ollut jo tovin tuotannossa ts. nvidian suunnittelemat konfiguraatiot on aikaa sittensaatu tuotantokuntoon.

Uutisessa ei ole mainitty yhtään konkreettissta ei toimivaa reaalimaailman järjestelmää jota oltaisiin vera:n päälle rakentamassa. Jos jokin oikea järjestelmä on joka ei toimi ilman linux-kernelin muutosta niin mielenkiinnolla odottelen jos joku tietää mikä se asiakas ja järjestelmä on? Mielikuvitusjärjestelmät että asia x,y,z voisi olla mutta ei nyt kuitenkaan ole järjestelmät eivät kiinnosta.
 
Viimeksi muokattu:
AP:ssa puhuttiin vain vain "impacting non nvidia gpu's" ja "NVIDIA GPUs are co-designed with "Vera" CPUs in mind and its specific memory ordering, so no issues are present when the two are running together."

En usko, että löytyy asiakasta joka veraa käyttäisi muun kuin nvidian gpu:n kanssa. Muut laitteet nvidian ekosysteemistä lienee ns. toimivia esim. ne mellanox verkkokortit ja ssd:t kun noudattanevat samaa suunniteltu toimimaan yhdessä paradigmaa. Vera-rubin on ollut jo tovin tuotannossa.

Uutisessa ei ole mainitty yhtään konkreettissta ei toimivaa reaalimaailman järjestelmää jota oltaisiin vera:n päälle rakentamassa. Jos jokin oikea järjestelmä on joka ei toimi ilman linux-kernelin muutosta niin mielenkiinnolla odottelen jos joku tietää mikä se asiakas ja järjestelmä on? Mielikuvitusjärjestelmät että asia x,y,z voisi olla mutta ei nyt kuitenkaan ole järjestelmät eivät kiinnosta.
Lähteessä on kumminkin linkki toiseen uutiseen. NVIDIA Offers "Vera" CPU as a Standalone Competitor to Intel's Xeon and AMD's EPYC Processors

Onhan tuo ehkä tekokkainn ARM prossu tai ainakin yehokain ydin servereihin, ja eniten muistikaistaa. Oikeastaan taitaa olla ainut HPC painotteinen ARM prossu.
 
Viimeksi muokattu:
Lähteessä on kumminkin linkki toiseen uutiseen.https://www.techpowerup.com/345664/nvidia-offers-vera-cpu-as-a-standalone-competitor-to-intels-xeon-and-amds-epyc-processors

Onhan tuo ehkä tekokkainn ARM prossu tai ainakin yehokain ydin servereihin, ja eniten muistikaistaa.
Artikkelissa kuitenkin puhutaan gpu-epäyhteensopivuudesta eikä esim. ssd epäyhteensopivuudesta. Korjattavissa softalla. Vaikea uskoa, google parittaisi nvidian cpu:ta tpu:n kylkeen tai että joku ostaisi amd gpu:ta konesaliin nvidia cpu:lla. Mua oikeasti kiinnostaa, jos joku tietää semmoisen asiakkaan missä on nvidian cpu ja kolmannen osapuolen AI-kiihdytin kun en kyseisenlaisia asiakkaita/konfiguraatioita tiedä. Sen tiedän, että nvidia aikoo myydä cpu only klustereita mutta ne lienevät samaa toimivaa kamaa kuin mitä menee vera-rubin nvl72:een poislukien ettei ole gpu:ta.

Intelin cpu:ta toki on tulossa nvidian gpu:n kylkeen jossain kohtaa mutta se naitetaan gpu:hun kiinni paljon pcie:ta nopeamman nvlink:in läpi.
 
Artikkelissa kuitenkin puhutaan gpu-epäyhteensopivuudesta eikä esim. ssd epäyhteensopivuudesta. Korjattavissa softalla. Vaikea uskoa, google parittaisi nvidian cpu:ta tpu:n kylkeen tai että joku ostaisi amd gpu:ta konesaliin nvidia cpu:lla. Mua oikeasti kiinnostaa, jos joku tietää semmoisen asiakkaan missä on nvidian cpu ja kolmannen osapuolen AI-kiihdytin kun en kyseisenlaisia asiakkaita/konfiguraatioita tiedä. Sen tiedän, että nvidia aikoo myydä cpu only klustereita mutta ne lienevät samaa toimivaa kamaa kuin mitä menee vera-rubin nvl72:een poislukien ettei ole gpu:ta.

Intelin cpu:ta toki on tulossa nvidian gpu:n kylkeen jossain kohtaa mutta se naitetaan gpu:hun kiinni paljon pcie:ta nopeamman nvlink:in läpi.
Gpu ja kiihdyttimet vain esinerkki. MMIO käytetään muussakin ja käyttö kai lisäntyy. Joten sanoisin, että aika ikävä juttu Nvidialle.


NVIDIA kykenee korjaamaan ongelman laitteistokohtaisilla Linux-kerneleillä

Ei kuulosta kätevältä. Ja suorituskyky laskee joten enemmänkin paikkaamista kun korjaamista.
 
Ei kuulosta kätevältä. Ja suorituskyky laskee joten enemmänkin paikkaamista kun korjaamista.
En usko, että tämä bugi koskee sitä konfikkia mitä nvidia myy maailmalle eli vera-rubin nvl72. Joku kolmannen osapuolen hypoteettinen amd+nvidia konfikki varmaan kärsii, mutta näitä ei ole olemassa ellei joku kaiva konkreettista järjestelmää ja asiakasta missä tämä vika esiintyisi. Nvidian vera-rubin nvl72 on ollut jo tovin tuotannossa. Nvidia suunnitellut palaset toimimaan yhdellä tapaa ja on toisenlainen ei nvidian käyttämä konfikki jossa on softalla korjattavissa oleva vika.
 
En usko, että tämä bugi koskee sitä konfikkia mitä nvidia myy maailmalle eli vera-rubin nvl72. Joku kolmannen osapuolen hypoteettinen amd+nvidia konfikki varmaan kärsii, mutta näitä ei ole olemassa ellei joku kaiva konkreettista järjestelmää ja asiakasta missä tämä vika esiintyisi. Nvidian vera-rubin nvl72 on ollut jo tovin tuotannossa. Nvidia suunnitellut palaset toimimaan yhdellä tapaa ja on toisenlainen ei nvidian käyttämä konfikki jossa on softalla korjattavissa oleva vika.
Toistelet vaan samaa. Nvidia julkaisi Veran erillisenä. Meinastko että myynti on 0.
 
En usko, että tämä bugi koskee sitä konfikkia mitä nvidia myy maailmalle eli vera-rubin nvl72.

nVidia myy maailmalle myös Veraa ilman Rubinia.

Joku kolmannen osapuolen hypoteettinen amd+nvidia konfikki varmaan kärsii, mutta näitä ei ole olemassa ellei joku kaiva konkreettista järjestelmää ja asiakasta missä tämä vika esiintyisi. Nvidian vera-rubin nvl72 on ollut jo tovin tuotannossa.

Vastaat viestiin ja sitten totaalisesti ignoraat että mitä siinä viestissä sanon. En puhunut mitään mistään AMDn GPU:ista vaan niistä ihan erilaisista laitteista kuin GPUista.

Esim. eräs suuri suomalainen firma (joka suunnittelee myös omaa hyvin spesialisoitunutta rautaa) on ryhtynyt tekemään yhteistyötä nVidian kanssa. Tämän yhteistyön seurauksena esim. näitä tämän firman omia piirejä saatetaan ehkä haluta kytkeä nvidian piireihin, ja jos vaikka näiden piirien välillä on yhteensopivuusongelma niin se voi potentiaalisesti olla aika suuri ongelma.

Nvidia suunnitellut palaset toimimaan yhdellä tapaa ja on toisenlainen ei nvidian käyttämä konfikki jossa on softalla korjattavissa oleva vika.

nVidia on suunnitellut piirinsä käyttämään PCIE-väyllää mutta on mokanntu piirin suunnittelussa siten että se ei kunnolla PCI-standardin mukainen eikä tue kaikki PCIE-laitteita.

Ja ei, se että tehdään softalla hidastavaa purkkaa ei ole "softalla korjattavissa oleva vika" vaan softalla kierrettävissä oleva vika ja nämä softaworkaroundit yleensä huonontavat suorituskykyä.

Että melkoista whitewashing-tuubaa postaat. Koska et voi millään myöntää sitä, että fanittavasi firma tekee ongelmallisia tuotteita.
 
Onhan tämä vähintään äärimmäisen NOLOA että nvidian tasoinen firma tekee näin kiusallisen virheen. Suuremmat vaikutukset lienee kuitenkin nolla, sillä miksipä kukaan näitä ostaisi kuin ai-kupla-rahoituksella ai-kuplaa ruokkimaan nvidian ai-kupla-kiihdyttimillä varustettuna.
 
Että melkoista whitewashing-tuubaa postaat. Koska et voi millään myöntää sitä, että fanittavasi firma tekee ongelmallisia tuotteita.
uutisessa mainitaan vain ai-kiihdyttimet. Kaikki muu puhdasta spekulaatiota ellei sinulla ole lähteitä.

Nvidia preferoi nvlinkkiä, se suorituskyky. Esim. Vera-rubin cpu-gpu kytketty nvlink:lla eikä hitaalla pcie:lla. Intel lisää nvlinkin x86:een että saa myytyä cpu:ta nvidian konesali gpu:n kylkeen. Gb10:en cpu-gpu kytketty nvlink:lla eikä pcie:lla Intel will design CPUs with Nvidia NVLink in return for $5 billion investment

Sit on vielä esim sifive diili: SiFive to Power Next-Gen RISC-V AI Data Centers with NVIDIA NVLink™ Fusion
Arm nvlink: Arm Neoverse platform integrates NVIDIA NVLink Fusion to accelerate AI data center adoption

Jos tarvit suorituskykyä niin parempi integroida kiinni vera cpu:hun cpu:ssa olevan nvlinkin kautta kuin pcie:n kautta. Jos et tarvi nvlinkin suorituskykyä niin maksat turhasta verassa kun voisit ostaa arm cpu:ta missä ei ole nvlink lisäämässä hintaa.

Vera-rubin nvl72:ssa kai uudet ssd:t missä liikenne menee suoraan ssd:lta gpu:lle kiertämättä cpu:n kautta. Sama juttu verkkopuolen kanssa.
 
Viimeksi muokattu:
Tongin tuota bugia lisää niin se ei vaikuttane ssd/verkkokortit yms. toimivuuteen. Bugi vaatii melko spesifiset asetukset(erittäin iso bar-koko ja tietynlainen raskas dma-liikenne kombo) mitä käytetään lähinnä ai-kiihdyttimien kanssa. Ssd/verkkopuoli yms. ei triggeröi vikaa. Vika myös kierrettävissä softalla. Softalla oli se sitten ajurissa/piirin firmiksessä/biossisa/mikrokoodissa rautavikojen paikkaaminen ihan normaalia.
 

Statistiikka

Viestiketjuista
299 354
Viestejä
5 098 736
Jäsenet
81 625
Uusin jäsen
karvakoira

Hinta.fi

Back
Ylös Bottom