Tekoäly omalla koneella

Minulla on jouten Dell OptiPlex 3050 Micro. Olen suunnittelut paikallista tekoälyä siten että se hakisi minun pdf muodossa olevista ohjekirjoista tietoa.

Tuo on aika vaatimaton kone joten riittääkö teho?
Tuskin mihinkään järkevään, mutta mm. llama.cpp toimii pelkällä muistillakin, joten kokeilu ei maksa mitään. Kokeile vaikka jollain 3B-8B-mallilla. Esim. Ryzen 7 5800X (8-core) tuottaa 7-10 token/s, mikä on hidas mutta tyhjää parempi. Ei kannata liikoja odottaa.

Kun otetaan GPU (RX9070) Ryzenin avuksi, niin 3B-malli tuottaa 100 token/s. Syötteen parsimisessa on vielä suurempi ero: CPU:lla n. 40 token/s, GPU:lla n. 4000 token/s (tuo tosin laski ->500 token/s isolla syötteellä).

Tuo käyttö "...että se hakisi minun pdf muodossa olevista ohjekirjoista tietoa." on sellainen, mistä moni olisi varmasti kiinnostunut, mutta onko tähän jotain helppoa keinoa olemassa? Se toimii, että syötteenä on yksittäinen (pienehkö) pdf ja malli prosessoi sitä mutta se, että olisi dokumenttiarkisto, josta AI osaisi etsiä oikean dokumentin ja kaivaa sieltä etsityt tiedot menee käsittääkseni melko vaikeaksi.

AI-malli itsessään ei tunne mitään muuta kuin sen mitä sille on opetettu ja syötteenä kerrottu. Jotenkin mallille pitäisi opettaa dokumenttiarkisto ja sen sisältö.

Mallin opettamiseen on toki tekniikoita mutta olen siinä käsityksessä, että ne vaatii raudalta vielä enemmän kuin mallien käyttö. Raskainta on full finetuning, jolla muutetaan koko mallia, mutta on myös kevyempiä LORA/QLORA ja juuri dokumenttihakuihin tarkoitettu RAG, mutta näistä en itse ole ollenkaan perillä. Ilmeisesti tuo yllämainittu PrivateGPT on yksi ratkaisu RAG:n toteuttamiseen.
Mikä olisi järkevä valinta raudaksi tuollaiseen käyttöön? Vanha läppäri? Ilmeisesti gpu tehoa olisi hyvä olla?
Vanha pelikone, johon päivittäisi näytönohjaimen? Suhteellisen moderni GPU olisi tarpeen ja VRAMia pitäisi olla *vähintään* 8 GB mutta mieluummin 16 GB (tai enemmän). Jos GPU ja VRAM olisi kunnossa, niin vähän vanhempikin CPU voi riittää. Jos uutta näytönohjainta ostaa AI-käyttöön, niin pitäisin 16 GB miniminä.
Varmaankin mahdollisimman isomuistinen järeä APU, strix halo. Näissä hommissa nopeinkin kotikone on vielä oikeasti sairaan hidas. Miettii sitä, että jos se lähdemateriaali on 100000 tokenia ja sun kone laskee 10token/s tai vaikka 100token/s niin pelkästään materiaalin yhteen kertaan skannaaminen kestää saati sitten että malli järkeilisi, selaa dataa ees+taas ja tuottaisi hyvän lopputuloksen kysymykseen niin tokeneita palaa ja aikaa kestää.
Tuo on vähän pessimistinen arvio. Dokumentin lukeminen sisään on kuitenkin paljon nopeampaa kuin tekstin generointi. Vähänkään isompien tekstien kanssa tulee kyllä kontekstin koko rajoitteeksi vaikka olisi 16GB VRAMia.

Hitaus on käsittääkseni juuri RAG:n ongelma. Jos mallille kouluttaisi (LORA) dokumenttien sisällön, niin ainakin periaatteessa tiedonhaku omista dokumenteista olisi yhtä nopeaa kuin minkä tahansa muun asian kysyminen. Mielellään kuulisin itsekin, jos joku on AI-koulutusta ruvennut kotikoneilla tekemään.
 
Hitaus on käsittääkseni juuri RAG:n ongelma. Jos mallille kouluttaisi (LORA) dokumenttien sisällön, niin ainakin periaatteessa tiedonhaku omista dokumenteista olisi yhtä nopeaa kuin minkä tahansa muun asian kysyminen. Mielellään kuulisin itsekin, jos joku on AI-koulutusta ruvennut kotikoneilla tekemään.
Kun koulutat mallit uusiksi joka dokumentille niin tähän menevää aikaa ja vaivaa ei lasketa?
 
Minulla on jouten Dell OptiPlex 3050 Micro. Olen suunnittelut paikallista tekoälyä siten että se hakisi minun pdf muodossa olevista ohjekirjoista tietoa.

Tuo on aika vaatimaton kone joten riittääkö teho?

Tekoäly suositteli 1Tb ssd levyä siihen. Ollama ja Ubuntu suunnitelmissa mutta ei kokemusta näistä hommista aikaisemmin.

Jos laitteen sais toimiin niin mahdollisesti myös cloudflaren kautta käyttö netin yli...
Pdf:t pitäisi konvertoida RAGiin ja sitä kautta chunkeilla voisi saada hakuajat alas, mutta jos dataa on sanotaan vaikka muutama miljoona tokenia esimerkiksi -> mä oon ajellu omaa mallia RAGilla + 5080mobilella = mulla oli aineistona ~450k materiaalia -> toimii verrattain hyvin mutta pitäisi optimoida lisää.

Sanotaan lyhyesti, kaipaisi lisää tehoa, ja paljon että saat käyttökokemuksen mukavaksi. Semaattinen haku ym käyttöön, tekee kyllä virheitä vielä jne ja chunkien luonti vain kevyellä overlapilla antaa vähän ristiriitaisia tilanteita välillä eikä aina kunnon vastausta. Semaattisella haulla jne siltikin koot paisuu esim top-5 chunkeilla heti 1000-5000 tokeniin -> jo tuon luku ja vastauksen kirjoitus jollain 10tok/s vauhilla on tuskaista.

Cloudflarea en käyttäisi turhaan, ite rakensin oman pipelinen tailscalen avulla, se toimii kyllä vallattoman hyvin luurin läpi, saa lähetettyä kuvia mallille jne ja vastausajatkin on hyvät.

Muutama miljoona tokenia aineistoa tuottaa tuhansia ellei kymmeniä tuhansia chunkeja, riipuen miten pilkot ne.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
298 853
Viestejä
5 096 273
Jäsenet
81 535
Uusin jäsen
Vaappu

Hinta.fi

Back
Ylös Bottom