A mesterséges intelligencia (MI) fejlődése az elmúlt évtizedekben jelentős előrelépéseket hozott, azonban a tanulási folyamatok hagyományosan emberi beavatkozást igényeltek. Az MI rendszerek működésének alapját képező algoritmusokat emberek tervezték meg, akik meghatározták a tanulási szabályokat és irányelveket. Ez a folyamat azonban lassú és korlátozott volt az emberi intuíció által.
Az MI tanulása: a hagyományos megközelítés
Az MI rendszerek, különösen a megerősítéses tanulás (reinforcement learning, RL) esetében, úgy tanulnak, hogy jutalmakat kapnak sikeres cselekvéseikért. Ez a tanulási mód hasonlít az emberi és állati tanuláshoz, amelyet több millió év evolúció alakított ki. Azonban míg az élőlények természetes úton sajátítják el a tanulást, az MI-nek ezt explicit módon kell megtanítani.
A megerősítéses tanulás során az algoritmusok célja, hogy egy adott környezetben minél hatékonyabban oldjanak meg feladatokat a jutalmak maximalizálásával. Az eddigi módszerekben azonban az algoritmusok szabályait emberek alkották meg, ami korlátozta a fejlődést.
Új megközelítés: az evolúció inspirálta önfejlesztő MI
A kutatók egy forradalmi ötlettel álltak elő: az evolúció véletlenszerű próbálkozásokon alapuló folyamatát alkalmazták digitális MI populációk létrehozására. Ezek az AI ügynökök különböző komplex környezetekben próbáltak megoldani számos feladatot egy adott tanulási szabály alapján.
Egy „meta-hálózat”, vagyis egy szülő MI felügyelte ezeket az ügynököket. Ez a meta-hálózat elemezte az ügynökök teljesítményét, majd módosította a tanulási szabályt annak érdekében, hogy a következő generáció gyorsabban és hatékonyabban tudjon tanulni.
DiscoRL: az önállóan felfedezett tanulási algoritmus
Ennek a folyamatnak eredményeként született meg a DiscoRL nevű új tanulási szabály, amelyet Disco57-ként is emlegetnek (mivel 57 Atari játék tesztelte). Ez az algoritmus minden korábbi ember által tervezett algoritmust felülmúlt komplex feladatok sorozatában.
A kutatócsoport ezt követően Disco57 segítségével képezett ki egy új MI ügynököt, majd összehasonlította teljesítményét olyan vezető emberi fejlesztésű algoritmusokkal, mint például a PPO és MuZero.
Kiemelkedő eredmények ismert és ismeretlen kihívásokon
Először jól ismert Atari játékokon tesztelték az új ügynököt, majd olyan ismeretlen kihívásokkal szembesítették, mint a ProcGen, Crafter és NetHack játékok. Az eredmények lenyűgözőek voltak:
- Atari Benchmark: A DiscoRL-alapú ügynök jobb eredményeket ért el minden korábbi emberi algoritmusnál.
- Ismeretlen kihívások: Az új rendszer állapot-of-the-art szinten teljesített, bizonyítva saját tanulási szabályának hatékonyságát.
A jövő útja: automatikusan felfedezett megerősítéses tanulási algoritmusok
A kutatók szerint ezek az eredmények azt sugallják, hogy a jövőben a fejlett mesterséges intelligenciákhoz szükséges megerősítéses tanulási algoritmusokat már nem emberek fogják manuálisan megtervezni. Ehelyett ezek automatikusan fedezhetők fel az AI ügynökök tapasztalatai alapján.
A Nature folyóiratban megjelent tanulmányukban így fogalmaztak: „Ez a munka egy lépést tett afelé, hogy gépek által tervezett megerősítéses tanulási algoritmusok versenyezhessenek és akár túl is szárnyalják a legjobb manuálisan tervezett algoritmusokat bonyolult környezetekben.”
Záró gondolatok
Ez a kutatás új korszakot nyithat a mesterséges intelligencia fejlesztésében: amikor már nemcsak mi tanítjuk az AI-t, hanem maga az AI találja meg legjobb működési módját. Ez nem csupán időt takaríthat meg és növelheti a hatékonyságot, hanem olyan innovációkhoz vezethet, amelyekre eddig nem is gondoltunk volna.
A cikket írta: Paul Arnold
Szerkesztette: Gaby Clark
Ellenőrizte és lektorálta: Robert Egan
Forrás: Junhyuk Oh et al., Discovering state-of-the-art reinforcement learning algorithms, Nature (2025). DOI: 10.1038/s41586-025-09761-x
Eredeti hír: AI teaches itself and outperforms human-designed algorithms (2025)
Forrás: https://techxplore.com/news/2025-10-ai-outperforms-human-algorithms.html