OpenAI julkaisi uuden Sora 2 -tekoälymallin videoiden generointiin

NeliYgönen

Ylläpidon jäsen
Liittynyt
02.07.2020
Viestejä
483
Viime vuonna julkaistun Soran seuraaja luo entistä realistisempia ja uskottavampia videoita.

1759678098409.png


Yhdysvaltalainen OpenAI julkaisi videoita generoivan Sora-tekoälymallinsa viime vuonna, mutta alan nopea kehitys on saanut yhtiön julkaisemaan sille jo seuraajan, joka on simppelisti Sora 2. OpenAI itse kehuu Sora 2:n olevan yhtä merkityksellinen videoiden tekoälygeneroinnille kuin GPT-3.5 kielimalleille ja luonnehtii sitä askeleeksi kohti ”yleistä tekoälyä”.

1759678117047.png


Aiemmille tekoälymalleille vaikeuksia on tuottanut mm. ihmisten ja esineiden uskottavuus etenkin liikkeessä, sillä usein videoissa esiintyy vääristyneitä ja luonnottomia muotoja. Sora 2:ssa tähän on panostettu, mikä näkyy esimerkiksi realistisen näköisissä eläinten liikeradoissa ja ihmisten suorittamissa akrobatiaesityksissä. Vaikka täydellisyydestä ollaan edelleen kaukana, on Sora 2 edeltäjiään parempi fysiikan lakien noudattamisessa videoissaan. Videoihin saadaan myös realistista äänimaailmaa ja puhetta, joka on linjassa hahmojen suun liikkeiden kanssa.

OpenAI on aloittanut Sora 2:n jakelun ilmaisena Sora-sovelluksena, joka on ladattavissa toistaiseksi Yhdysvalloissa ja Kanadassa iOS-laitteille. Kutsun vastaanottamisen ja rekisteröitymisen jälkeen käyttäjät pääsevät Sora 2:een käsiksi myös selaimessa. EU-alueella Sora 2:n saatavuuttaa saadaan kuitenkin todennäköisesti odottaa vielä pitkään tekoälysovelluksia koskevien EU-säädösten vuoksi.

Lähde: OpenAI
 
Noista ylläolevista kuvista asia ei vielä täysin ilmene, mutta kun on muutamia Sora 2:lla tehtyjä videoita nähnyt niin nyt ollaan jo aika pitkällä:
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.




Siinä missä "koodaminen on kohta automatisoitu", "kaikilta loppuu työt" yms. bandwagoniin hypänneet on viimeaikoina näyttäneet ajaneen seinään ja sen myötä palanneet maitojunalla kotiin, video- ja kuvapuolella kehitys ei tunnu hidastuvan. Kun lopputuloksen ei täydy olla täysin "eksakti" vaan tarpeeksi lähelle tavoitetta riittää niin kyllä tekoälymalleissa on ihan potetiaalia.

Ehkä Sora 2:n jälkeen joku 1-2 sukupolvea ja tuotettu video on valtaosalle ihmisistä täysin todellisuudesta erottamattomia. Siinä vaiheessa on vaikea nähdä viihteen Hollywood/näyttelijä-hierarkian säilyvän entisellään kun leffoja ja sarjoja voi käytännössä tehdä pelkän käsikirjoittajan budjetilla.
 
Siinä missä "koodaminen on kohta automatisoitu", "kaikilta loppuu työt" yms. bandwagoniin hypänneet on viimeaikoina näyttäneet ajaneen seinään ja sen myötä palanneet maitojunalla kotiin, video- ja kuvapuolella kehitys ei tunnu hidastuvan. Kun lopputuloksen ei täydy olla täysin "eksakti" vaan tarpeeksi lähelle tavoitetta riittää niin kyllä tekoälymalleissa on ihan potetiaalia.

Ehkä Sora 2:n jälkeen joku 1-2 sukupolvea ja tuotettu video on valtaosalle ihmisistä täysin todellisuudesta erottamattomia. Siinä vaiheessa on vaikea nähdä viihteen Hollywood/näyttelijä-hierarkian säilyvän entisellään kun leffoja ja sarjoja voi käytännössä tehdä pelkän käsikirjoittajan budjetilla.
En nyt keulisi videoidenkaan osalta vielä, eikös noi edelleen ole rajattu hyvinkin lyhyisiin yhtäjaksoisiin klippeihin. Toki jos leffassa kaikki leikkaukset on max 5-10 sek pitkiä niin voi tehdä pidempääkin pätkää
 
En nyt keulisi videoidenkaan osalta vielä, eikös noi edelleen ole rajattu hyvinkin lyhyisiin yhtäjaksoisiin klippeihin. Toki jos leffassa kaikki leikkaukset on max 5-10 sek pitkiä niin voi tehdä pidempääkin pätkää
20s on maksimit, riippuu käytettävästä resoluutiosta. Ensimmäisen Soran ongelma oli mitä sitä testailin, että sillä oli mahdotonta saada jatkoa tehtyä generoituihin pätkiin, aina teki jotain ihan muuta kun pyydettiin. Jälki oli kyllä vakuuttavaa sitten kun osui kohdalle ekassa klipissä.
 
Eli tuo pääsee siis suunnilleen Bollywood tasolle parhaillaan? Ehkä seuraava on jo alemman Hollywood elokuvan tasoa
 
20s on maksimit, riippuu käytettävästä resoluutiosta. Ensimmäisen Soran ongelma oli mitä sitä testailin, että sillä oli mahdotonta saada jatkoa tehtyä generoituihin pätkiin, aina teki jotain ihan muuta kun pyydettiin. Jälki oli kyllä vakuuttavaa sitten kun osui kohdalle ekassa klipissä.
Ongelmana on myös itse videoiden tekninen laatu. Niitä kun ei saa ulos logaritmisessa tai lineaarisessa väriavaruudessa, niin kohtausten palastelu siten että lopputulos olisi ammattimaisen näköinen on käytännössä mahdotonta.

Paras olisi jos tuo tuottaisi jotain 14bit raw formaattia jota sitten voisi paremmin sovittaa. Promptaamalla et tuota nimittäin saa ikinä tekemään samaa videota kuin äsken, mutta muuttaen värimäärittelyä pikkasen suuntaan x.
 
Ongelmana on myös itse videoiden tekninen laatu. Niitä kun ei saa ulos logaritmisessa tai lineaarisessa väriavaruudessa, niin kohtausten palastelu siten että lopputulos olisi ammattimaisen näköinen on käytännössä mahdotonta.

Paras olisi jos tuo tuottaisi jotain 14bit raw formaattia jota sitten voisi paremmin sovittaa. Promptaamalla et tuota nimittäin saa ikinä tekemään samaa videota kuin äsken, mutta muuttaen värimäärittelyä pikkasen suuntaan x.
Joo video on aika rankasti pakattua, servereistä tämä on varmaa tällä hetkellä kiinni. Yhteen testi projektiin itse upscalesin soran 720p videoita paremmaksi ja kaikki mahdolliset denoiset sun muut piti vetää :D.
 
Joo video on aika rankasti pakattua, servereistä tämä on varmaa tällä hetkellä kiinni. Yhteen testi projektiin itse upscalesin soran 720p videoita paremmaksi ja kaikki mahdolliset denoiset sun muut piti vetää :D.
Eihän se ole "pakattua" sanan alkuperäisessä merkityksessä jossa taustalla olisi joku tarkempi kuva joka pakataan, vaan malli tuottaa natiivisti tommosta. Oikea termi olisi 'heikkolaatuista'.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
288 943
Viestejä
4 948 249
Jäsenet
79 574
Uusin jäsen
Jansku1

Hinta.fi

Back
Ylös Bottom