Nem vitás, hogy az Open AI fellendítette a mesterséges intelligencia (MI) fejlesztését: a ChatGPT elindításával konkurenciát állított az Apple-nek és a Google-nek a chatbotpiacon, és rögtön élmezőnybe is tört a cég. Amíg a ChatGPT folyamatosan frissül, addig a versenytársak sorra buknak el vagy átszerveződnek. Legutóbb a Google nyugalmazta a Bard nevű chatbotját, és új projektbe kezdett a Gemini fejlesztésével, amely kizárólag okostelefonokra lesz elérhető. Most új fronton támad az OpenAI: február 15-én bejelentette, hogy tesztfázisba kerül a Sora, a cég szövegen alapuló videókat (text-to-video) generáló MI-je. 

Illustration Sora
A Sora egyelőre csak az etikus hackerek (red teamerek) számára elérhető.
Fotó: NurPhoto via AFP

 

Mire képes a Sora?

„A Sora képes magas minőségű egyperces videók elkészítésére. Az eredményeink azt bizonyítják, hogy a videógenerációs modellek skálázása ígéretes úton halad afelé, hogy általános célokra létrehozott világszimulátorokat alkossunk” – olvasható az OpenaAI oldalán. A cég nagy hangsúlyt fektet a generált videókkal kapcsolatos kutatásba: ennek végeredménye az új videógenerátor. 

A program főbb képességei a következőkben merülnek ki: 

  • képekből rövid videókat generálni,
  • parancsba adhatjuk, hogy úgy bővítsen egy videót, hogy átmenet nélküli, végtelen ismétlődést hozzon létre,
  • felskálázzon képeket és videókat,
  • valamint képes digitális világokat szimulálni.

A Sora nemcsak azt „érti”, hogy a felhasználó mit kért a parancsban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban, tehát hogyan kell neki megalkotnia és hihetővé tennie a generált képkockákat. 

A képminőség a legnagyobb gond

Néhány évvel ezelőtt a szövegalapú képgenerátorok, mint például a Midjourney, jelentették a mesterséges intelligencia élvonalát, a mozdulatlan képgenerálásnál azonban nagyobb kihívást jelentett a mozgóképek létrehozása. Azzal, hogy a fejlesztők képesek lettek szövegen alapuló videók létrehozására, kijelenthetjük, hogy ma ez jelenti az MI-technológia csúcsát.

A Sora képes az alacsony minőségben generált videókat úgy felskálázni, hogy szinte élethű látványt kapunk.

Az eddig látott MI-videógenerátorok nagy része nem képes fenntartani a konzisztens valóságérzetet, egyik képkockáról a másikra újraalkotja az arcokat, a ruházatot és a tárgyakat, ezzel sokszor kaleidoszkópszerű látványt létrehozva – írta a PC Gamer.

Minden marketinges munkája veszélybe került: itt a Sora, a félelmetesen fejlett videogenerátor MI

A Sora a marketingesek után a reklámpiacot is leuralja majd, végül pedig Hollywood is veszélybe kerülhet. A reklámipar védtelen lesz: a Sora bármilyen emberi erőforrásnál olcsóbban és gyorsabban tud majd generálni gyakorlatilag bármilyen videót, melyeken keresztül végletekig személyre szabható lesz majd a felhasználók előtt megjelenő hirdetési tartalom – személyesebb reklámokat eredményezve, mint ahogy korábban bármikor elképzelhető lett volna.

Hogyan működik a Sora?

A szövegen alapuló videógenerátorok működése nem egyszerű folyamat, ám az OpenAI részletesen elmagyarázta, hogyan is forognak a Sora fogaskerekei. A program olyan hálózatot képez, amely csökkenti a vizuális adatok dimenzióit. Ez a hálózat nyers videót vesz bemenetként, majd egy térben és időben tömörített, latens reprezentációt ad ki. A Sorát ebben a latens tömörített térben képzik, és ugyanitt generálja a videókat is. „Képzünk egy megfelelő dekódoló modellt is, mely a generált latenseket visszaképezi a pixeltérre” – írja a cég a technológiáról. 

A Sora egy olyan modell, amely képes felismerni a hibás foltokat, és megjósolni azok eredeti, „tiszta” változatát.

Az OpenAI új fejlesztése figyelemre méltó minőségi skálázási tulajdonságokat tudhat magáénak, kiemelkedően működik a nyelvi modellezés, valamint a képgenerálás funkciója, de azért még közel sem korlátok és hibák nélküli program. Mindezek mellett a Sora azt bizonyítja, hogy a cég jó úton halad a fizikális világ digitális mozgóképes leképezésében, és ha képesek lesznek javítani a hibákat, megoldást találni az akadályok leküzdésére, a ChatGPT-hez hasonlóan zászlóshajóként tündökölhetnek a szövegalapon generált videók piacának élén.