Extra

Pufi dzsekis Ferenc pápa és társai: így leplezzük le az MI-képeket

A mesterséges intelligencia korában megannyi képgeneráló programmal találkozhatunk, melyek egyre ügyesebbek a valósághű képek létrehozásában. Az MI-alapú képgenerátorok azonban sokszor olyan hibákba esnek, melyek csak a kivételesen elvont alkotókra jellemzők.

Egyre jobbak a mesterséges intelligencia (MI) által készített képek, de még mindig vannak olyan árulkodó jelek, amelyek könnyen lebuktathatják generált tartalmakat. Az olyan MI-programok, mint a Dall-E 2, a Stable Diffusion, a Midjourney és a Craiyon már képesek olyan élethű képeket alkotni, amelyek nemcsak az első, hanem második és harmadik ránézésre is megtéveszthetik az embereket, de ha észben tartunk pár dolgot, akkor könnyedén elválaszthatjuk az emberi tartalmat a generálttól.

MI
Pufi dzsekis Ferenc pápa és társai: így leplezzük le az MI-képeket / Fotó: Reddit / U/TRIPPY_ART_SPECIAL

 

Fontos a valóságérzet

Alapvetőnek gondolnánk, de mégsem lehet eléggé hangsúlyozni, hogy 2024-ben ott tart a technológia, hogy szinte minden vizuális tartalmat érdemes megkérdőjelezni, főleg, ha már egy apró gyanús részletet felfedezünk a képen vagy a videón. Elsőként nem a hajat, arcot vagy egyéb részleteket kell górcső alá venni, hanem a teljes kompozíciót, pontosabban annak valóságtartalmát. Ahogy a fenti képen is láthatjuk,

nem valószínű, hogy Ferenc pápa valaha Balenciaga pufi dzsekit fog hordani.

Ha ezt végiggondoljuk, akkor már felesleges tovább elemezni a képet. Megannyi kép van már az interneten, amely MI-vel készült, és egy pillanat alatt megállapítható, hogy nem a valóságot ábrázolja. A Google saját MI-je, a Gemini érdekes jelenséget produkált, amikor „meghamisította a történelmet”: az algoritmus színes bőrűként ábrázolta az Egyesült Államok alapítóit és a pápát. Ezek is azt támasztják alá, hogy sokszor érdemes a legfeltűnőbb dologgal kezdeni az elemzést: a valóságérzettel.

Végtagok és hajak

Mint azt tudjuk, az embernek alapjáraton két karja és két lába, egy kezén öt ujja van. Azonban sok képgenerátor hajlamos arra, hogy elragadtassa magát, és változtasson az évezredek óta változatlan számokon. A legújabb MI-modellek már képesek a végtagok pontos ábrázolására, de amikor nem csak egy „fotóalanyon” kell ezt csinálni, hanem egy csoportképen, akkor már könnyen megszaladhat a mesterséges alkotó keze. 

Ha egy képgenerátornak több embert kell generálnia, akkor nagy valószínűséggel gond lesz a végtagok számával.

Mesterséges intelligencia a szinkron világában: láthatatlan ellenség és megmentő egyben

A ChatGPT rohamos fejlődésével egy időben egyre nagyobb ellentétet szül a mesterséges intelligencia által létrehozott szinkron, amely egyesek szerint ördögtől való, mások viszont megoldást látnak benne több problémára is. Egy megfelelő hangtárral és algoritmusokkal ellátott MI-rendszer képes lehet teljes filmek és videójátékok szinkronfeladatát ellátni.

Ugyanez igaz a hajakra is: ameddig a mesterséges intelligencia viszonylag könnyen megváltoztatja valakinek a hajszínét, a formával és hosszúsággal már bajban van. Ez pedig szintén hatványozottan igaz, ha nem csak egy embert kell megalkotni egy képen. Sokszor a végeredmény igencsak szembetűnő, mert a szépen fésült hajak helyett egy színes pacát kapunk.

Collage of pixels forming human face
A mesterséges intelligencia nem boldogul jól a pórusokkal vagy más tökéletlenségekkel / Fotó: Shutterstock

 

Az MI és a tökéletesség

A valóságban az emberi arc sosem tökéletesen szimmetrikus, a mesterséges intelligencia viszont könnyebben generál szimmetrikus tárgyakat, így az arcok is áldozatául eshetnek ennek. A valóságérzetet nem feltétlen borítja meg egy teljesen szimmetrikus arc, viszont minél tovább nézzük, annál gyanúsabbá válhat. Ilyenkor érdemes szemügyre venni, hogy az apró részletek, mint például egy anyajegy párosan jelenik-e meg az arcon, mert ha igen, akkor az árulkodó lehet. Fordított a helyzet a szemszínnel: 

bár egyre több heterokrómiás emberrel találkozhatunk, de az ember szemeinek színe általában megegyezik. 

Ezért, ha egy különböző színű szempárral találkozhatunk, akkor elkezdhetjük keresni a többi gyanús részletet is. A bőr is kritikus tényező lehet a lebuktatásban, ugyanis a mesterséges intelligencia nem boldogul jól a pórusokkal vagy más tökéletlenségekkel. Ha egy bőrfelület túlságosan valóságosnak tűnik, akkor nagy eséllyel nem valóságos képet látunk.

Nemcsak az MI-képgenerálás technológiája halad eszméletlen tempóban, hanem videós fronton is van előrelépés: az OpenAI februárban mutatta be a Sora nevű szövegen alapuló videókat generáló mesterséges intelligenciáját. „A Sora képes magas minőségű egyperces videók elkészítésére. Az eredményeink azt bizonyítják, hogy a videógenerációs modellek skálázása ígéretes úton halad afelé, hogy általános célokra létrehozott világszimulátorokat alkossunk” – olvasható az OpenAI oldalán. A cég technológiai vezetője, Mira Murati nyilatkozata szerint a Sora még idén elérhető lesz, „akár pár hónapon belül is”.

 

 

mesterséges intelligencia Midjourney képek valóság
Kapcsolódó cikkek