BÉT logóÁrfolyamok: 15 perccel késleltetett adatok
Illustration Sora

Sora: mi az OpenAI új fejlesztése és miért kavar akkora port

Az OpenAI megállíthatatlan a mesterséges intelligencia piacán, és már nem csak a chatbotok között tett le vezető technológiát az asztalra. A cég új terméke, a Sora elképesztő látvánnyal rendelkező, rövid videókat képes létrehozni, és úgy tűnik, hogy sikerül kiküszöbölnie a konkurencia több negatívumát is.

Nem vitás, hogy az Open AI fellendítette a mesterséges intelligencia (MI) fejlesztését: a ChatGPT elindításával konkurenciát állított az Apple-nek és a Google-nek a chatbotpiacon, és rögtön élmezőnybe is tört a cég. Amíg a ChatGPT folyamatosan frissül, addig a versenytársak sorra buknak el vagy átszerveződnek. Legutóbb a Google nyugalmazta a Bard nevű chatbotját, és új projektbe kezdett a Gemini fejlesztésével, amely kizárólag okostelefonokra lesz elérhető. Most új fronton támad az OpenAI: február 15-én bejelentette, hogy tesztfázisba kerül a Sora, a cég szövegen alapuló videókat (text-to-video) generáló MI-je. 

Illustration Sora
A Sora egyelőre csak az etikus hackerek (red teamerek) számára elérhető.
Fotó: NurPhoto via AFP

 

Mire képes a Sora?

„A Sora képes magas minőségű egyperces videók elkészítésére. Az eredményeink azt bizonyítják, hogy a videógenerációs modellek skálázása ígéretes úton halad afelé, hogy általános célokra létrehozott világszimulátorokat alkossunk” – olvasható az OpenaAI oldalán. A cég nagy hangsúlyt fektet a generált videókkal kapcsolatos kutatásba: ennek végeredménye az új videógenerátor. 

A program főbb képességei a következőkben merülnek ki: 

  • képekből rövid videókat generálni,
  • parancsba adhatjuk, hogy úgy bővítsen egy videót, hogy átmenet nélküli, végtelen ismétlődést hozzon létre,
  • felskálázzon képeket és videókat,
  • valamint képes digitális világokat szimulálni.

A Sora nemcsak azt „érti”, hogy a felhasználó mit kért a parancsban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban, tehát hogyan kell neki megalkotnia és hihetővé tennie a generált képkockákat. 

A képminőség a legnagyobb gond

Néhány évvel ezelőtt a szövegalapú képgenerátorok, mint például a Midjourney, jelentették a mesterséges intelligencia élvonalát, a mozdulatlan képgenerálásnál azonban nagyobb kihívást jelentett a mozgóképek létrehozása. Azzal, hogy a fejlesztők képesek lettek szövegen alapuló videók létrehozására, kijelenthetjük, hogy ma ez jelenti az MI-technológia csúcsát.

A Sora képes az alacsony minőségben generált videókat úgy felskálázni, hogy szinte élethű látványt kapunk.

Az eddig látott MI-videógenerátorok nagy része nem képes fenntartani a konzisztens valóságérzetet, egyik képkockáról a másikra újraalkotja az arcokat, a ruházatot és a tárgyakat, ezzel sokszor kaleidoszkópszerű látványt létrehozva – írta a PC Gamer.

Minden marketinges munkája veszélybe került: itt a Sora, a félelmetesen fejlett videogenerátor MI

A Sora a marketingesek után a reklámpiacot is leuralja majd, végül pedig Hollywood is veszélybe kerülhet. A reklámipar védtelen lesz: a Sora bármilyen emberi erőforrásnál olcsóbban és gyorsabban tud majd generálni gyakorlatilag bármilyen videót, melyeken keresztül végletekig személyre szabható lesz majd a felhasználók előtt megjelenő hirdetési tartalom – személyesebb reklámokat eredményezve, mint ahogy korábban bármikor elképzelhető lett volna.

Hogyan működik a Sora?

A szövegen alapuló videógenerátorok működése nem egyszerű folyamat, ám az OpenAI részletesen elmagyarázta, hogyan is forognak a Sora fogaskerekei. A program olyan hálózatot képez, amely csökkenti a vizuális adatok dimenzióit. Ez a hálózat nyers videót vesz bemenetként, majd egy térben és időben tömörített, latens reprezentációt ad ki. A Sorát ebben a latens tömörített térben képzik, és ugyanitt generálja a videókat is. „Képzünk egy megfelelő dekódoló modellt is, mely a generált latenseket visszaképezi a pixeltérre” – írja a cég a technológiáról. 

A Sora egy olyan modell, amely képes felismerni a hibás foltokat, és megjósolni azok eredeti, „tiszta” változatát.

Az OpenAI új fejlesztése figyelemre méltó minőségi skálázási tulajdonságokat tudhat magáénak, kiemelkedően működik a nyelvi modellezés, valamint a képgenerálás funkciója, de azért még közel sem korlátok és hibák nélküli program. Mindezek mellett a Sora azt bizonyítja, hogy a cég jó úton halad a fizikális világ digitális mozgóképes leképezésében, és ha képesek lesznek javítani a hibákat, megoldást találni az akadályok leküzdésére, a ChatGPT-hez hasonlóan zászlóshajóként tündökölhetnek a szövegalapon generált videók piacának élén.  

 

Google News Világgazdaság
A legfrissebb hírekért kövess minket a Világgazdaság.hu Google News oldalán is!

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.