Telekommunikáció

A magyar mesterséges intelligencia köröket ver a ChatGPT-re

Jelentős hátrányból indulunk a szoftverek és a mesterséges intelligencia használata terén is, miután a magyar társadalom csekély hányada beszél idegen nyelvet. Ezért is különösen nehéz, ugyanakkor nélkülözhetetlen feladat megtanítani magyarul a digitális eszközöket. A jó hír, hogy a Puli-GPT-nevű hazai fejlesztés köröket ver a ChatGPT-re a nyelvünk használatában, ráadásul nem ez az egyetlen magyaros projekt.

A magyar köztudottan az egyik legnehezebb nyelv a világon, amelyet csak tíz-tizenöt millióan beszélünk, így világnyelvnek sem tekinthető – ezért is nagy kihívás megtanítani magyarul a mesterséges intelligenciát (MI).

Data,Science,And,Big,Data,Technology.,Scientist,Computing,,Analysing,And
Magyartudás terén köröket ver a Puli a ChatGPT-re.
Fotó: Shutterstock

Nyelvünk különcségéhez jön még pluszban, hogy más nemzetekkel összehasonlítva a magyar társadalom töredéke beszél idegen nyelveket, és habár a fiatalok nyelvtanulási kedve erősebbé vált, az MI-vel felszerelt fordítóprogramok is sokat javítottak a hátrányos helyzeten, kiugró fejlődés az angol vagy más nyelvek terén nem történt. 

Sok-sok adat kell ahhoz, hogy az MI megtanuljon magyarul

Minden profitorientált céges fejlesztésnél szempont a megtérülés, például hogy az adott nyelvet hány felhasználó beszéli. Az MI fejlődését az új szoftverek és a megnövekedett számítási teljesítmény mellett az is meghatározza, hogy az adott nyelven mekkora adatmennyiség áll rendelkezésre. A most elérhető, MI-alapú alkalmazások ezért futnak a nagy világnyelveken tökéletesen, míg a magyar kérdésekre sok hibás válasz érkezik.

Anyanyelvünk használata nincs a nemzetközi technológiai cégek fejlesztéseinek fókuszában, 

így kiemelten fontos, hogy a lehető legnagyobb magyar nyelvű szöveges adatbázis felhasználásával elkészítsük a magyar nyelvi modellt, amely beépülhet a mesterséges intelligencián alapuló alkalmazásokba. Minél több lesz a hiteles magyar nyelvű szövegrész, annál pontosabbak és választékosabbak az MI válaszai.

Ai,Tech,,Businessman,Show,Virtual,Graphic,Global,Internet,Connect,Chatgpt
Az OpenAI fejlesztése csak 120-130 millió magyar szót ismer.
Fotó: Shutterstock

 

Mi is az a nagy nyelvi modell?

A nagy nyelvi modell (large language modell, LLM) olyan MI-alapú algoritmus, amelyet hatalmas mennyiségű szöveges adaton, úgynevezett korpuszon tanítottak be, és képes megérteni, feldolgozni az emberi beszélt és írott nyelv sajátosságait. 

Hazánkban két nagy projekt zajlik, melynek keretében a magyar nyelvi modell kifejlesztésén és tökéletesítésén dolgoznak.

Másfél milliárd paraméteres fejlesztés az OTP-vel

Az elsőben a Nyelvtudományi Intézet munkatársai kifejlesztették a magyar ChatGPT-t, egy MI-alapú szövegszerkesztő és nyelvelemző szoftvert, amely jelenleg csevegésre még nem képes, de meg tudja találni a szövegekben lévő összefüggéseket, alkalmas médiatartalom elemzésére.

A Puli-GPT nevet viselő alkalmazás kidolgozásakor 41 milliárd szóból álló magyar és 62 milliárd szóból álló angol szövegállományt tápláltak be a kutatók. 

Összehasonlításul az OpenAI Chat GPT 120-130 millió magyar és 180 milliárd angol szóból tanult. A Puli a közeljövőben bővül majd csevegési funkcióval, de már most képes megadott szavak alapján összefüggő szövegeket írni, vagy össze tudja foglalni egy cikk vagy egy könyv tartalmát.

A magyar állam és az OTP Bank közös finanszírozásában, hazai egyetemek bevonásával zajlik 2021 óta egy magyar nyelvi MI-modell létrehozása.

Első lépésben elkészült az alapmodell, amely 1,5 milliárd paramétert használt, most zajlik a 30 milliárd paraméterre bővítés. A projekt célja, hogy olyan nyelvi modellt hozzanak létre, amely segíti a vállalati és a magánügyfelek kiszolgálását, növeli a hatékonyságot, és hosszú távú versenyelőnyt biztosít nemcsak a banknak, hanem az egész magyar gazdaságnak.

A siker, a jövő feltétele

A jól működő magyar nyelvi modell, nemcsak szuverenitási, hanem jóléti kérdés is, mivel növeli az MI magyar haszonélvezőinek a körét

– mondta Dietz Ferenc, a Mesterséges Intelligencia Koalíció oktatási és tudatosítási munkacsoportjának a vezetője, a Gábor Dénes Egyetem elnöke.

Kifejtette, hogy a nyelvi modelleken alapuló alkalmazások már megjelentek a köznevelésben és a felsőoktatásban is. Készségszintű, tudatos használatuk mind az egyén, mind a társadalom számára a jövőképesség, a siker feltétele.

 

ChatGPT puli Mesterséges Intelligencia Koalíció
Kapcsolódó cikkek