A legnépszerűbb mesterségesintelligencia- (MI) chatbotok nem értik, hogy az embereknek lehetnek olyan személyes meggyőződéseik, amelyek nem feltétlenül tényeken alapulnak – írja az Euronews egy a Nature Machine Intelligence tudományos folyóiratban, november elején publikált tanulmányra hivatkozva.

Súlyos hiányosságot tártak fel a chatbotoknál, a kutatók óvatosságra intenek a használatuknál / Fotó: Northfoto

A Stanford Egyetem kutatói 2025 júliusáig 24 különböző nagy nyelvi modellt (LLM) vizsgáltak, amelyek olyan MI-chatbotok mögött állnak, mint a DeepSeek, a Google Gemini, az Anthropic Claude, a Meta Llama és az OpenAI ChatGPT 4.0. Összesen több mint 13 ezer kérdéssel tesztelték, mennyire képesek megkülönböztetni a tényeket az olyan személyes hiedelmektől, amelyek igazak is lehetnek, de nem feltétlenül azok.

A tanulmány szerint az emberek tisztában vannak a különbséggel egy olyan kijelentés között, mint „tudom, hogy holnap esni fog” – amely bizonyosságot fejez ki –, és egy olyané között, mint „azt hiszem, holnap esni fog”, ami bizonytalanságot tükröz. Ezt a finom különbséget a chatbotok nem értik.

A kutatás kimutatta, hogy a nagy nyelvi modellek az olyan szavakat, mint a „tudom” vagy „hiszem”, automatikusan a tényekre utaló jeleknek tekintik.

Az, hogy az algoritmusok nem érzékelik ezt az árnyalatot, és nem értik, hogy az emberek hiedelmei téves információkra is épülhetnek, komoly következményekkel járhat olyan „magas kockázatú területeken”, ahol „kulcsfontosságú a meggyőződés és az objektív igazság megkülönböztetése”, így például a jogban, az orvostudományban, az újságírásban vagy a tudományos kutatásban.

Ez a hiányosság félrevezető diagnózisokat, torzított bírósági ítéleteket és a félretájékoztatás felerősödését okozhatja

– figyelmeztettek a kutatók.

A chatbotok ahelyett, hogy elismerték volna a felhasználó személyes, nem tényalapú hitét, inkább kijavították a téves állítást.

A kutatók azt is vizsgálták, hogy az MI-modellek képesek-e az igazság felismerésére és a téves információk javítására. Az újabb modellek jobban teljesítettek a tények és a valótlan vagy félrevezető adatok megkülönböztetésében – átlagosan 91 százalékos pontossággal –, míg a régebbiek eredménye 72 százalékos volt.

Azt is megállapítottuk, hogy bár az újabb modellek képesek az összetettebb, egymásra épülő tudásfeladatok kezelésére, továbbra is következetlen érvelési stratégiákra támaszkodnak, ami arra utal, hogy inkább felszínes mintafelismerést végeznek, mintsem valódi tudásalapú megértést.

A kutatók szerint a nagy nyelvi modelleket „tovább kell finomítani”, hogy jobban felismerjék a téves személyes hiedelmeket, és megbízhatóbban tudják megkülönböztetni a tényeken alapuló tudást, mielőtt széles körben alkalmaznák őket fontos területeken.