Szerzők: Jiří Milička, Anna Marklová, Ondřej Drobil, Eva Pospíšilová
Forrás: PLoS One, 2025, 20(10): e0333007
https://doi.org/10.1371/journal.pone.0333007
Bevezetés: Az AI-szövegek felismerésének kihívásai
A mesterséges intelligencia (AI) által generált szövegek felismerése napjaink egyik izgalmas és egyben nehéz feladata. Az emberek általában képesek önmaguk képességeinek becslésére, ám az új jelenségek – mint például az AI-val való interakció – esetében ez a képesség gyakran megbicsaklik. Nincs egységes, szabványosított teszt vagy oktatási módszer arra, hogy valaki megtanulja megkülönböztetni az emberi és AI által írt szövegeket.
A legtöbb ember nem vett részt olyan teszten, amely kifejezetten az AI-szövegek felismerésére irányult volna, így vagy semlegesek a képességeiket illetően, vagy túlzottan magabiztosak anélkül, hogy ezt alátámasztaná valós tudásuk. Ez különösen problémás lehet az oktatásban, ahol például a tanárok tévesen vádolhatják meg diákjaikat csalással.
Jelen kutatásunk célja nem csupán az volt, hogy megvizsgáljuk, mennyire képesek az emberek megkülönböztetni az AI- és emberi szövegeket, hanem azt is, hogy a visszacsatolás (feedback) segítségével javítható-e ez a képesség, illetve képesek-e a résztvevők reálisan felmérni saját kompetenciájukat.
Kutatási kérdések és hipotézisek
- Képesek-e a cseh anyanyelvűek megkülönböztetni az AI által generált szövegeket az emberi írásművektől?
- Javítja-e az azonnali visszacsatolás a felismerési képességet?
- Segít-e a visszacsatolás abban, hogy a résztvevők pontosabban kalibrálják önbizalmukat?
- Milyen szerepet játszik a szöveg műfaja és stílusa az AI-szöveg felismerésében?
- Hogyan befolyásolja a szubjektív olvashatóság érzékelése a szerzői hovatartozás megítélését?
- Milyen hatással vannak az egyéni attitűdök és AI-használati gyakoriságok a felismerési teljesítményre?
A kutatás háttere és korábbi eredmények
A mesterséges intelligencia által generált szövegek felismerése iránti érdeklődés jelentős tudományos figyelmet kapott, azonban az eddigi kísérletek eredményei vegyesek. A vizsgálatok eltérő nyelveken, műfajokban és módszerekkel zajlottak, így nehéz egységes következtetéseket levonni.
Például angol nyelvterületen végzett kutatások szerint az emberek teljesítménye gyakran csak enyhén haladja meg a véletlenszerű találgatást [4], míg más vizsgálatokban szinte teljesen véletlenszerű volt a helyes felismerés [5–7]. A műfajok között is jelentős eltérések mutatkoznak: költészetben [8], idegen nyelvi esszékben [6,9], tudományos összefoglalókban [10], hírekben vagy receptekben [5] más-más eredményeket kaptak.
Különösen ritkaak azok a kutatások, amelyek kisebb nyelveken – mint például cseh – vizsgálják ezt a kérdést. Az angol dominancia miatt ezek a kisebb nyelvek kevésbé szerepelnek az AI-modellek tanító adatbázisaiban, ami befolyásolhatja az AI-szövegek minőségét és felismerhetőségét.
Módszertan: Kísérleti tervezés és anyagok
A Koditex korpusz használata
A kutatás során a Koditex korpuszt használtuk alapanyagként, amely egy 9 millió szavas cseh nyelvű gyűjtemény különféle műfajokból (írott, beszélt és internetes kommunikáció). Ez lehetővé tette számunkra, hogy széles stilisztikai spektrumon vizsgáljuk az AI- és emberi szövegek megkülönböztetését.
A korpuszból kiválasztott szövegrészleteket (kb. 100 szó) GPT-4o modell segítségével folytattuk úgy, hogy stílusban és témában illeszkedjenek az eredeti emberi írásművekhez. Így 672 párt hoztunk létre: minden párban egy emberi és egy AI által generált szöveg szerepelt.
Kísérleti elrendezés
A résztvevők online környezetben kapták meg a feladatot: minden próbán két szöveget láttak egymás mellett (egyiket ember írta, másikat AI). Először azt kellett eldönteniük, melyik könnyebben olvasható, majd melyik emberi szerzőtől származik. Ezt követően bizalmi szintjüket is megadták egy 7 pontos skálán.
A résztvevőket véletlenszerűen két csoportba osztottuk:
- Visszacsatolást kapók: minden próba után azonnal megtudták helyes válaszukat.
- Nincs visszacsatolás: csak a kísérlet végén kaptak összesített eredményt.
Ezen kívül három kontroll kérdés segített kiszűrni azokat, akik nem figyeltek eléggé.
Résztvevők jellemzői
A végső mintában 254 cseh anyanyelvű személy szerepelt (átlagéletkor: 24 év), többségük felsőfokú végzettségű volt. A résztvevők között voltak hallgatók és szakemberek is különböző területekről (társadalomtudományok, természettudományok, filológia).
Eredmények: A visszacsatolás szerepe és a felismerési képesség
A kutatás egyik legfontosabb tanulsága, hogy puszta mindennapi AI-használat nem javítja automatikusan azt a képességet, hogy valaki megkülönböztesse az emberi és mesterségesen generált szövegeket. Ugyanakkor célzott tréninggel és folyamatos visszacsatolással ez a készség jelentősen fejleszthető.
A résztvevők kezdetben számos előítélettel rendelkeztek arról, milyen stílusjegyek jellemzik az AI-szövegeket. Például úgy vélték, hogy az AI inkább statikusabb műfajokat (adminisztratív vagy tudományos) produkálhat jól, míg dinamikusabb műfajokat (dialógusok vagy narratívák) kevésbé. Ezek az előfeltevések néha segítették őket helyes döntések meghozatalában, de sokszor tévedésekhez vezettek.
A visszacsatolás segített korrigálni ezeket a tévhiteket és finomhangolni azt is, hogy mennyire bízzanak meg saját ítéleteikben. Emellett rámutatott arra is, hogy nem igazán helytálló feltételezésük volt arról sem, hogy az emberi írásművek mindig olvashatóbbak lennének.
Önbizalom és teljesítmény kapcsolata
Bár mindkét csoport hasonló átlagos önbizalmi szintet mutatott, azoknál akik visszacsatolást kaptak sokkal pontosabb volt ez az önértékelés: csak akkor érezték magukat magabiztosnak, amikor valóban helyesen döntöttek. Ezzel szemben visszacsatolás nélkül sokszor pont akkor voltak túlzottan biztosak magukban, amikor hibáztak.
Stilisztikai tényezők és olvashatóság hatása
A kutatás multidimenzionális regiszterelemzés segítségével vizsgálta a cseh nyelv stilisztikai változatosságát. Kiderült például, hogy bizonyos műfaji jegyek erősen befolyásolják azt, mennyire könnyen lehet felismerni egy adott szöveg szerzőjét.
Ezen túlmenően azt is kimutattuk, hogy bár sokan feltételezik: egy olvashatóbb szöveg biztosan emberi kézből származik – ez nem feltétlenül igaz. Az AI képes magas olvashatóságú tartalmak előállítására is.
Az egyéni attitűdök és AI-használati gyakoriság hatása
A résztvevők attitűdjeit is mértük: hogyan viszonyulnak az AI-hoz társadalmi hatásaiban vagy kreativitásában. Meglepő módon ezeknek csak mérsékelt hatása volt arra vonatkozóan, mennyire sikeresen különböztették meg az AI-írásokat.
Hasonlóképpen azok sem teljesítettek jobban automatikusan, akik gyakrabban használnak mesterséges intelligenciát mindennapjaik során.
Kutatási szoftver alkalmazhatósága oktatásban
Kísérleti szoftverünk könnyen adaptálható gyakorlati eszközökké pedagógusok számára. Segítségével felmérhető és fejleszthető tanárok képessége arra vonatkozóan, hogyan ismerjék fel megbízhatóan az AI-generált tartalmakat. A részletes eredményjelentések lehetőséget adnak önreflexióra és oktatásra egyaránt.
Kitekintés: Mi várható tovább?
Eredményeink rámutattak arra is, hogy további kutatás szükséges más nyelveken és kulturális környezetben annak érdekében, hogy globális képet kapjunk arról: miként tanulható meg hatékonyan ez a kritikus digitális kompetencia. Emellett fontos lenne fejleszteni olyan oktatóanyagokat is, amelyek segítik ezt a tanulási folyamatot tudatosabbá tenni.
Összegzés
A mesterséges intelligencia által generált szövegek felismerése komplex kihívás mind technológiai mind pedagógiai oldalról nézve. Kutatásunk bizonyította, hogy célzott visszacsatolással jelentős fejlődést érhetünk el ezen a területen, miközben rámutattunk arra is, milyen előfeltevések nehezítik ezt a folyamatot. Ez új perspektívát kínál mindazok számára akik szeretnék jobban érteni vagy oktatni ezt a készséget egy gyorsan változó digitális világban.
Forrás: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0333007