Az utóbbi években az mesterséges intelligencia (AI) fejlődése robbanásszerű volt, különösen a neurális hálózatok területén. Ezek a modellek képesek komplex feladatokat ellátni, legyen szó nyelvi feldolgozásról, képfelismerésről vagy akár kreatív alkotásokról. Ugyanakkor egyre nagyobb figyelem irányul arra, hogy miként tárolják és kezelik az érzékeny vagy szerzői joggal védett információkat ezek a rendszerek. Egy új kutatás most betekintést nyújt abba, hogyan különböztethetjük meg a memorizált adatokat az érvelési képességektől a neurális hálózatokon belül, és milyen lehetőségek rejlenek az információk célzott eltávolításában.
Az információ eltávolításának jövője az AI-ban
A kutatók szerint, ha az információeltávolító technikák tovább fejlődnek, akkor a jövőben az AI cégek akár képesek lehetnek arra, hogy például szerzői joggal védett tartalmakat, személyes adatokat vagy káros memorizált szövegeket eltávolítsanak egy neurális hálózatból anélkül, hogy ez rontaná a modell átalakító (transzformatív) képességeit. Ez hatalmas előrelépést jelentene mind az adatvédelem, mind a mesterséges intelligencia biztonságos alkalmazása szempontjából.
Ugyanakkor jelenleg még nem teljesen értjük, hogyan tárolják elosztott módon az információkat ezek a hálózatok, ezért a kutatók hangsúlyozzák, hogy jelenlegi módszereik nem garantálják a teljes érzékeny információk eltávolítását. Ez egy új kutatási irány kezdeti lépéseit jelenti az AI területén.
A neurális tájkép bejárása: A veszteség tájkép fogalma
Ahhoz, hogy megértsük, miként különböztetik meg a Goodfire kutatói a memorizációt az érveléstől a neurális hálózatokban, fontos megismerkedni egy alapvető AI-konceptussal: a veszteség tájképpel.
A veszteség tájkép egy vizuális eszköz arra, hogy megmutassa, mennyire helyes vagy helytelen egy AI modell előrejelzése attól függően, hogyan állítjuk be annak belső paramétereit, amelyeket súlyoknak nevezünk.
Képzeljük el úgy, mintha egy összetett gépet hangolnánk be több millió tekerőgomb segítségével. A „veszteség” azt méri, hogy mennyi hibát követ el ez a gép. Ha magas a veszteség, sok hibát vét; ha alacsony, kevés hibát. A „tájkép” pedig azt jelenti, hogy ha minden lehetséges tekerőállást feltérképeznénk, láthatnánk egy térképet arról, hol vannak sok vagy kevés hibával járó beállítások.
Hogyan tanulnak az AI modellek? – A lejtmenet és a völgyek keresése
Az AI modellek tanítása során lényegében „lefelé gurulnak” ezen a veszteség tájképen (ezt hívjuk gradiens csökkenésnek), miközben folyamatosan állítják súlyaikat annak érdekében, hogy megtalálják azokat a mélyedéseket (völgyeket), ahol a hibák száma minimális.
Ez a folyamat biztosítja azt is, hogy az AI képes legyen helyes válaszokat adni kérdésekre vagy más feladatokat ellátni.
A veszteség görbületének elemzése: Memorizált tények vs. érvelési képességek
A Merullo és munkatársai által írt „From Memorization to Reasoning in the Spectrum of Loss Curvature” című tanulmányban (lásd 1. ábra) részletesen elemezték bizonyos nyelvi AI modellek veszteség tájainak görbületét. Ez azt jelenti, hogy megmérték, mennyire érzékeny egy modell teljesítménye apró változtatásokra különböző súlyok esetén.
- Éles csúcsok és völgyek: Ezek magas görbületet jelentenek – apró változtatások nagy hatással vannak a modell teljesítményére.
- Lapos síkságok: Alacsony görbületű területek – itt a változtatásoknak minimális hatásuk van.
K-FAC technika alkalmazása és eredményei
A kutatók egy speciális módszert használtak, amelyet K-FAC-nak (Kronecker-Factored Approximate Curvature) hívnak. Ennek segítségével sikerült elkülöníteniuk az egyedi memorizált tények által okozott éles csúcsokat ebben a veszteség tájképben.
Kiderült, hogy minden memorizált tény egy-egy éles kiugrást okoz különböző irányokban. Amikor azonban ezeket átlagolják együtt, akkor ezek az éles kiugrások kiegyenlítik egymást és így lapos profilt alkotnak.
Ezzel szemben azok az érvelési képességek, amelyek sokféle bemenetre épülnek, következetesen mérsékelt görbületű domborzati formákat mutatnak – olyanokat mint enyhe hullámzó dombok –, amelyek nagyjából ugyanazt a formát tartják meg függetlenül attól, hogy honnan közelítjük meg őket.
Következtetések és jövőbeli kilátások
Ezek az eredmények új perspektívát nyitnak meg abban, hogyan érthetjük meg és kezelhetjük az AI rendszerekben tárolt információkat. Azáltal, hogy elkülöníthetjük a memorizált adatokat az általános érvelési képességektől, lehetőség nyílhat arra is, hogy célzottan eltávolítsunk bizonyos érzékeny vagy nem kívánt tartalmakat anélkül, hogy ezzel rontanánk a modell általános teljesítményét.
Bár még korai szakaszban járunk ezen az úton, ezek az eredmények megalapozhatják a jövő fejlettebb adatvédelmi és biztonsági technológiáit mesterséges intelligencia rendszerekben.





