Még mindig nem az AI ver át minket, hanem a mögötte álló ember: mennyire lehúzósak az AI-szövegellenőrző oldalak?
A mesterséges intelligencia (AI) térnyerésével párhuzamosan egy új digitális hazugságvizsgáló iparág is született. Az interneten egymás után jelennek meg azok az oldalak, amelyek azt ígérik: képesek megmondani, hogy egy szöveget ember írt-e, vagy mesterséges intelligencia generált. A százalékos eredmény sokszor meggyőzőnek tűnik, a valóság azonban jóval bonyolultabb. Egy egyszerű teszt ugyanis azt mutatta: ezek az eszközök nemcsak az AI-szövegeket találják el bizonytalanul, hanem az emberi szövegeket is gyakran mesterségesnek minősítik.

Az AI-detektorok az elmúlt két évben rendkívül gyorsan elterjedtek. A generatív mesterséges intelligencia – különösen a nagy nyelvi modellek, mint például a ChatGPT – megjelenése alapjaiban változtatta meg a tartalomgyártást. Ma már néhány másodperc alatt lehet komplett esszéket, cikkeket vagy marketinganyagokat generálni, ami több területen is új kérdéseket vetett fel.
- Az oktatásban például az egyetemek attól tartanak, hogy a hallgatók AI-jal íratják meg a beadandóikat.
- A médiában és a marketingben az a kérdés merül fel, mennyi tartalom készül valójában emberi szerzőkkel, és mennyi mesterséges intelligenciával.
A válasz erre sok helyen az AI-detektor lett: egy olyan eszköz, amely állítólag képes felismerni a mesterségesen generált szöveget. A legtöbb ilyen szolgáltatás egyszerűen működik. A felhasználó bemásolja a szöveget, a rendszer pedig néhány másodperc alatt százalékos eredményt ad. Egyes eszközök részletesebb elemzést is kínálnak, például mondatonként jelzik, hogy mely részek lehetnek AI-generáltak. A kérdés azonban az, hogy valóban így van-e.
Nem teljesen AI-szöveg az AI-szöveg?
Egy egyszerű teszt során három különböző online AI-detektort vizsgáltunk meg. A cél nem egy tudományos kutatás elvégzése volt, hanem annak ellenőrzése, hogy ezek az eszközök a gyakorlatban mennyire adnak következetes eredményt – emiatt és a vádaskodás elkerülése miatt nem nevezzük meg a három vizsgált oldalt, de annyit elárulhatunk, hogy mindhárom erősen hirdeti magát a Google keresőjében.
A tesztben hat szöveget használtunk:
- három olyan írást, amelyet teljes mértékben ember írt – ezek korábban publikált újságcikkek voltak –,
- valamint három mesterséges intelligencia által generált szöveget, melyeket ChatGPT segítségével hoztunk létre.
A szövegek hossza és stílusa nagyjából hasonló volt, a teszt pedig minden esetben magyar nyelvű tartalommal történt.
Az AI által generált szövegek esetében a detektorok általában 70 és 85 százalék közötti AI-tartalmat mutattak ki. Ez már önmagában is azt jelenti, hogy az eszközök nem teljes bizonyossággal azonosítják a mesterséges szöveget.
Az emberi szöveg viszont mesterséges?
A valóban meglepő eredmények azonban az emberi szövegek esetében jelentkeztek. A három, teljes mértékben ember által írt újságcikk közül kettőt a detektorok 100 százalékban mesterséges intelligencia által generáltnak minősítettek. A harmadik esetben a rendszer 90 százalékos AI-arányt mutatott.
Más szóval: a detektorok a teljesen emberi szövegeket is mesterségesnek jelölték.
Ez első látásra különösen furcsának tűnhet, de technikai szempontból nem meglepő. A legtöbb AI-detektor valójában nem képes közvetlenül felismerni, hogy egy szöveget mesterséges intelligencia írt-e. Ehelyett statisztikai mintákat keres a szövegben.
Két ilyen mutatót különösen gyakran használnak. Az egyik az úgynevezett perplexity (zavarodottság), mely azt méri, mennyire kiszámítható egy szöveg szerkezete. A másik a burstiness (robbanékonyság), mely a mondathossz és a szerkezeti változatosság mintázatait vizsgálja.
Az AI által generált szövegek gyakran grammatikailag tiszták, logikusan felépítettek és viszonylag egyenletes szerkezetűek. Ez statisztikai szempontból kiszámíthatóbb mintázatot eredményez. A probléma az, hogy egy jól szerkesztett újságcikk sokszor hasonló tulajdonságokat mutat. Egy tapasztalt szerző által írt szöveg szintén lehet logikus, következetes és stilisztikailag kiegyensúlyozott. Egy ilyen írás a statisztikai elemzés szerint könnyen „AI-szerűnek” tűnhet, még akkor is, ha teljes mértékben emberi munka.
A magyar nyelv tovább bonyolítja a helyzetet. A legtöbb AI-detektor elsősorban angol nyelvű adatokon lett betanítva, mivel ezekből áll rendelkezésre a legnagyobb mennyiségű tanítóanyag.
A magyar nyelv szerkezete és szóhasználata azonban jócskán eltér az angoltól, ami növelheti a hibás találatok arányát.
Ez részben magyarázatot adhat arra is, miért mutattak a teszt során ennyire pontatlan eredményeket a detektorok.
Több ezer forintot kérnek el havonta egy pontatlan szolgáltatásért
Az AI-detektorok piacának van egy másik érdekes sajátossága is. Sok szolgáltatás nemcsak a mesterséges szövegek felismerését kínálja, hanem olyan funkciókat is, amelyek kifejezetten arra szolgálnak, hogy az AI által generált szöveget emberibbé tegyék. Ezek a szolgáltatások gyakran olyan neveken futnak, mint „AI humanizer”, „AI rewrite” vagy „bypass AI detectors”. Az ígéret egyszerű:
a rendszer átírja a szöveget úgy, hogy az kevésbé legyen felismerhető mesterséges tartalomként, mindezt pedig egy nagyjából havi 15-20 dolláros (5000-7000 forintos) előfizetésért.
Ez egy különös, de egyszerű üzleti modellt eredményez: ugyanazok az oldalak, melyek azt állítják, hogy képesek felismerni az AI-szöveget, gyakran pénzért azt is ígérik, hogy képesek átalakítani azt, természetesen mesterséges intelligenciával. A detektor megállapítja, hogy a szöveg mesterséges, majd felajánl egy fizetős megoldást arra, hogy azt humanizálja.
A pontatlan AI-detektorok több területen is problémát okozhatnak. Egyetemi környezetben például előfordulhat, hogy egy teljesen emberi szöveget mesterségesnek minősítenek. A tartalomgyártásban vagy a marketingben szintén félreértésekhez vezethet, ha egy eszköz hibás eredményt ad.
Fontos azonban azt is látni, hogy az AI-detektorok jelenlegi formájukban inkább statisztikai becslések, mint megbízható ellenőrző eszközök.
Az általuk adott százalékos érték nem bizonyíték, hanem valószínűségi becslés, amely számos tényezőtől függ.
Ahogy a mesterséges intelligencia fejlődik, a különbség az emberi és az AI által írt szövegek között egyre kisebb lesz. Ez azt jelenti, hogy a jövőben valószínűleg még nehezebb lesz egyértelműen megállapítani egy szöveg eredetét.
A digitális hazugságvizsgálók jelenlegi formájukban messze nem olyan pontosak, mint amilyennek első pillantásra tűnnek. A százalékos eredmény mögött sokszor nem biztos válasz, hanem csupán egy bizonytalan statisztikai becslés áll, ezekért pedig valószínűleg kár több ezer forintot kifizetni havonta.



