A Science Advances folyóiratban megjelent legújabb kutatás egy olyan innovatív módszert mutat be, amely képes az emberi agy aktivitását koherens, leíró szöveggé alakítani – még akkor is, amikor az agy nem aktívan dolgoz fel nyelvi információkat. Ez a megközelítés nem közvetlenül a szavak vagy mondatok dekódolására épül, hanem a gondolatok verbális megfogalmazása előtti nonverbális reprezentációk értelmezésére.
A kutatás háttere és célja
A tanulmány alapját egy régóta fennálló idegtudományi kihívás képezi: hogyan lehet dekódolni és értelmezni az emberi elme gazdag, belső tartalmait. Korábbi vizsgálatok ugyan mutattak sikereket az agyi aktivitás és a nyelv közötti összefüggések feltérképezésében, azonban ezek általában csak akkor működtek jól, ha a résztvevők aktívan gondolkodtak szavakban – például beszéd, olvasás vagy hallgatás során. Ez a megközelítés korlátozza a dekódolás lehetőségeit, hiszen nem minden mentális élmény verbális természetű, ráadásul nem mindenki fér hozzá egyformán a nyelvhez, különösen azok, akik például afáziában szenvednek.
Az emberi gondolatok gyakran vizuális jelenetekből, eseményekből és absztrakt fogalmakból állnak össze, amelyek nem azonnal alakulnak át szavakká. Ezek a mentális reprezentációk részletesek és strukturáltak lehetnek, magukban foglalva tárgyak, cselekvések és környezetek közötti kapcsolatokat. A legtöbb eddigi dekódolási módszer azonban nem képes megragadni ezt a komplexitást, különösen ha olyan modellekre támaszkodnak, amelyek csupán meglévő nyelvi struktúrákat utánoznak vagy kézzel készített leírásokra alapoznak.
A „gondolat-feliratozás” koncepciója
Tomoyasu Horikawa, a japán NTT Communication Science Laboratories kiemelkedő kutatója célul tűzte ki egy olyan módszer kidolgozását, amely képes értelmezni a nonverbális mentális reprezentációkat – azokat, amelyek érzékelés vagy emlékezés során alakulnak ki –, és ezeket koherens, érthető szöveggé alakítani. Nem hagyományos értelemben vett gondolatolvasásról van szó, hanem egy olyan interpretációs interfész létrehozásáról, amely tükrözi az agy által egy adott élmény során képviselt tartalmat.
„Hosszú ideje lenyűgözött, hogy az agy miként generálja és reprezentálja a szubjektív tudatos élményeinkhez kapcsolódó tartalmakat, mint például a mentális képek vagy álmok,” mondta Horikawa a PsyPost-nak. „Úgy hiszem, hogy az agyi dekódoló technológiák segíthetnek ezeknek a kérdéseknek a vizsgálatában, miközben világos és intuitív értelmezést adnak az agyban kódolt információkról.”
A cél egy olyan fejlett dekódolási módszer kifejlesztése volt, amely elősegítheti tudatosságunk neurális alapjainak jobb megértését – hosszú távon pedig segíthet azoknak is, akik nehézségekkel küzdenek kommunikációjukban. Innen ered a „gondolat-feliratozás” ötlete: hogy jobban megértsük, miként fordíthatók le ezek a belső reprezentációk nyelvre és oszthatók meg értelmes módon.
A kutatás menete és módszertana
Horikawa által kidolgozott „mind captioning” (gondolat-feliratozás) két fő lépésből áll:
- Agyi aktivitás fordítása szemantikai jellemzőkké – ehhez mély nyelvi modellt használnak.
- Természetes nyelvű leírások generálása, amelyek összhangban vannak ezekkel a szemantikai jellemzőkkel.
A vizsgálatban hat felnőtt japán anyanyelvű résztvevő vett részt különböző angol nyelvtudási szintekkel. Több ezer rövid videoklipet néztek meg – ezek csendesek voltak és nem tartalmaztak semmilyen nyelvi kíséretet –, melyek változatos vizuális tartalmakat mutattak be: tárgyakat, cselekvéseket és társas interakciókat. A funkcionális MRI segítségével rögzítették az agyi aktivitást mind a videók nézése alatt, mind azok későbbi felidézésekor.
Horikawa lineáris dekódoló modelleket tanított be arra, hogy az agyi aktivitás mintázatait összekapcsolják azokkal a szemantikai jellemzőkkel, amelyeket a videókhoz írt feliratokból vontak ki. Ezeket a jellemzőket egy DeBERTa nevű nyelvi modell segítségével állították elő, amely magas dimenziós térben reprezentálja a szöveg jelentését.
Miután megtanulták ezt az összekapcsolást, a dekódert új agyi aktivitásokra alkalmazták mind érzékelési (videónézés), mind emlékezeti (felidézés) helyzetekben. Az így kapott szemantikai jellemzők alapján egy másik nyelvi modell (RoBERTa) generált természetes nyelvű szöveget. Ez utóbbi modellt kifejezetten arra optimalizálták, hogy hiányzó szavakat pótoljon mondatokban. Egy iteratív folyamat során folyamatosan javította és bővítette a mondatokat úgy, hogy azok minél pontosabban tükrözzék az agyból dekódolt reprezentációkat.
Eredmények és elemzés
A generált mondatokat többféle módon értékelték:
- Összehasonlították őket ember által írt feliratokkal pontosság és hasonlóság alapján standard természetesnyelv-értékelési metrikákkal (BLEU, ROUGE és BERTScore).
- Kiderült, hogy a gépi leírások rendkívül jól megkülönböztették egymástól a különböző videókat – akár 100 lehetőség közül is nagy megbízhatósággal.
- A dekódoló módszer közel 50%-os pontossággal tudta beazonosítani helyesen azt a videót az agyi aktivitás alapján – ez jelentős javulás az 1%-os véletlenszerű találati arányhoz képest.
- Kiemelendő továbbá, hogy minőségi leírásokat tudtak generálni az emlékezeti fázis alatt rögzített agyi aktivitásból is; bár itt az eredmények nem voltak annyira erősek mint közvetlen nézéskor.
- Néhány esetben még egyetlen mentális képalkotási eseményből is sikerült jó teljesítményt elérni.
Fontos megfigyelés volt továbbá: ezek a leírások nem csupán tárgyak felsorolását tartalmazták. Megörökítették az interakciókat és kapcsolatrendszereket is – például azt, hogy ki mit tett kivel vagy hogyan helyezkedtek el térben az elemek. Amikor véletlenszerűen összekeverték a generált mondatok szórendjét, azok hasonlósága drasztikusan csökkent az eredeti referenciákhoz képest. Ez bizonyítja, hogy az eredeti szerkezet relációs jelentést hordozott és nem csupán szókincset.
„Amikor először teszteltem a szöveg-generáló algoritmust az új megközelítés után,” mesélte Horikawa, „őszintén meglepett, ahogy lépésről lépésre összeállt egy koherens szerkezetű mondat – mintha hallanám az agy halk hangját átszűrődni az adatzajon.”
Agyi területek szerepe és általánosítás
A kutatás azt is kimutatta, hogy ezekhez a leírásokhoz nem szükséges kizárólagosan hagyományos nyelvi agyi területek aktivitását használni. Még akkor is intelligens és strukturált leírásokat tudott generálni a rendszer, ha ezeket a régiókat kizárták az elemzésből. Ez arra utalhat, hogy jelentős szemantikai információk szétszórtan helyezkednek el olyan agyi területeken is, amelyek vizuális vagy kontextuális feldolgozásért felelősek – nem csak magukban a nyelvi központokban.
„A tanulmány bizonyítja: lehetséges koherens és értelmes szöveget generálni agyi aktivitásból – nem magát a nyelvet dekódolva közvetlenül,” magyarázta Horikawa. „Hanem úgy értelmezve azt a nonverbális reprezentációt, amely már hordozza magában a szerkezeti információt még mielőtt szavakká formálnánk gondolatainkat.”
Korlátok és etikai kérdések
Bár ígéretes eredményeket hozott ez az új megközelítés, több korlát is fennáll:
- Kis mintaszám: Mindössze hat résztvevővel dolgoztak; bár mindegyikük sok órányi adatot szolgáltatott (kb. 17 óra), ami növelte az eredmények megbízhatóságát.
- Korlátozott ingertípus: A videók hétköznapi jeleneteket mutattak be; nem ismert még pontosan hogyan működne absztrakt fogalmakkal vagy személyes mentális tartalmakkal (például álmokkal).
- Módszertani félreértések: Fontos hangsúlyozni: ez nem hagyományos értelemben vett nyelvi dekódolás vagy rekonstrukció; inkább egy természetes nyelven alapuló interpretációs eszköz nonverbális mentális reprezentációkra.
- Adatvédelmi aggályok: Az elme tartalmának értelmezése etikai kérdéseket vet fel autonómia és beleegyezés tekintetében. Jelenleg nagy mennyiségű adatot igénylő együttműködés szükséges; azonban jövőbeni fejlesztések ezt könnyebbé tehetik.
„Néhányan aggódhatnak amiatt, hogy ez veszélyeztetheti mentális privát szféránkat,” mondta Horikawa. „Jelenleg azonban ez nem teszi lehetővé privát gondolataink könnyű olvasását; nagy adatgyűjtést igényel együttműködő alanyoktól és pontossága korlátozott.”
Kitekintés: jövőbeli lehetőségek
A módszer további fejlesztése révén más típusú mentális tartalmak – például auditív élmények vagy érzelmek – is feltérképezhetők lehetnek. Emellett segíthet kommunikációs rendszereket kialakítani azok számára is, akik beszéd vagy írás nélkül élnek.
A kulcs abban rejlik: hogy ne magát a nyelvet tekintsük kiindulópontnak vagy forrásnak, hanem hidat képezzen annak érdekében, hogy feltárjuk miként szervezi meg az agy jelentéseinket még mielőtt kifejeznénk őket szóban vagy írásban.
„Hosszú távú célom megérteni tudatos élményeink neurális mechanizmusait,” zárta Horikawa. „És segíteni abban is szeretnék embereket támogatni tudományos-technológiai fejlődés révén abban, hogy teljesebben kihasználják agyuk potenciálját.”
Záró gondolatok
A „Mind captioning: Evolving descriptive text of mental content from human brain activity” című tanulmány úttörő lépést jelent abba az irányba, hogy jobban megértsük belső világunk működését és kommunikáljunk vele új módokon. Bár még számos kihívással kell szembenézniük kutatóknak és etikailag is körültekintően kell eljárniuk ezen technológiák fejlesztése során, ez az irány ígéretes lehetőségeket rejt magában mindazok számára, akik számára eddig nehézkes volt gondolataik kifejezése.





