Az utóbbi években az mesterséges intelligencia fejlődése szinte robbanásszerű volt, de ha őszinték vagyunk, a legtöbb modell valójában nem csinál mást, mint lemásolja az emberi munkát. Vagyis rengeteg példát bekajál, aztán megpróbálja lemásolni azt, amit látott. De vajon lehet-e ennél emberibb módon tanulni? Képes lehet-e az AI arra, hogy maga találjon ki érdekes kérdéseket, majd megpróbálja megtalálni rájuk a választ?
Ez a kérdés vezérelte a Tsinghua Egyetem, a Pekingi Általános Mesterséges Intelligencia Intézet (BIGAI) és a Pennsylvania State University kutatóit, akik egy egészen izgalmas projektet indítottak el. A Absolute Zero Reasoner (AZR) nevű rendszerük nem csak passzívan tanul, hanem aktívan játszik a számítógépes kóddal – problémákat generál magának, megoldja őket, majd ellenőrzi az eredményt.
Hogyan működik az Absolute Zero Reasoner?
A rendszer egy nagy nyelvi modellt használ Python kódolási feladatok generálására. Ezek a feladatok nem egyszerűek, de megoldhatók – pont annyira kihívást jelentenek, hogy fejlődjön a modell. Miután létrehozta a problémát, ugyanazzal a modellel megpróbálja megoldani azt. Ezután lefuttatja a kódot, hogy ellenőrizze: működik-e. A siker vagy kudarc pedig visszacsatolásként szolgál arra, hogy finomítsa magát a modellt – így egyre jobb lesz abban, hogy újabb és jobb problémákat találjon ki és oldjon meg.
Ez az önreflektív tanulási folyamat nagyon hasonlít arra, ahogy mi emberek is fejlődünk: először utánozunk másokat, aztán elkezdünk saját kérdéseket feltenni magunknak, végül pedig túlszárnyaljuk azokat is, akik tanítottak minket.
Az emberi tanulás mintája mesterségesen
Andrew Zhao, a Tsinghua Egyetem PhD-hallgatója és az Absolute Zero ötletgazdája szerint ez a módszer messze túlmutat az egyszerű utánzáson. „Eleinte lemásolod a szüleidet vagy a tanáraidat – mondja –, de aztán eljön az idő, amikor saját kérdéseket kell feltenned. És ha jól csinálod, akár túl is szárnyalhatod őket.”
Zhao és kollégája, Zilong Zheng (BIGAI kutatója) emlékeztetnek rá, hogy ez az úgynevezett „self-play” vagy önjátékos tanulás nem új ötlet: már évtizedekkel ezelőtt foglalkoztak vele olyan AI úttörők, mint Jürgen Schmidhuber vagy Pierre-Yves Oudeyer.
Mire képes ma az Absolute Zero?
A kutatócsapat eredményei lenyűgözőek: az AZR jelentősen javította mind a 7 milliárd paraméteres, mind pedig a 14 milliárd paraméteres Qwen nyílt forráskódú nyelvi modell kódolási és érvelési képességeit. Ami még meglepőbb: ezek a modellek olyan szintre jutottak el, hogy néha még azokat is túlszárnyalták, amelyek ember által válogatott adatokkal készültek.
Zheng szerint az egyik legizgalmasabb aspektus éppen az, hogy ahogy nő a modell ereje és tudása, úgy nő vele együtt a generált problémák nehézségi szintje is. Ez egyfajta önmagát hajtó fejlődési spirált eredményez.
Korlátok és jövőbeli lehetőségek
Persze jelenleg van egy fontos korlát: az Absolute Zero csak olyan problémákra működik jól, amelyeket könnyen ellenőrizni lehet – például matematikai vagy programozási feladatokra. De mi lenne akkor, ha ezt továbbvinnék? Képzeljük el például egy olyan AI-t, amely önállóan böngészi az internetet vagy elvégzi irodai feladatainkat – és képes lenne értékelni saját döntéseit!
Zheng szerint ez nem csak sci-fi: „Ha ezt egyszer sikerül megvalósítani, akkor ez egy lépcsőfok lehet afelé, hogy elérjük a szuperintelligenciát.”
Az Absolute Zero hatása már látszik más AI projektekben is
A módszer kezd terjedni nagyobb AI laborokban is. Például az Agent0 nevű projekt (amelyet a Salesforce, Stanford és Észak-Karolina Chapel Hill Egyetem közösen fejleszt) egy szoftvereszközöket használó ügynököt hoz létre, amely önmagát fejleszti önjáték segítségével. Hasonlóan az Absolute Zerohoz itt is kísérletezés útján javulnak általános érvelési képességeik.
Egy friss publikáció Meta kutatóktól és amerikai egyetemektől pedig egy szoftvermérnöki területen alkalmazott önjátékos rendszert mutat be. A szerzők szerint ez „az első lépés lehet szuperintelligens szoftverügynökök képzésében”.
Miért fontos ez neked?
A hagyományos adatok egyre drágábbak és ritkábbak lesznek – ezért kulcsfontosságú új tanulási módszereket találni az AI számára. Az Absolute Zero projekt pont ezt kínálja: egy olyan irányt mutat be, ahol az AI nem csak passzív másolóként működik majd, hanem aktív felfedezőként és problémamegoldóként.
Szerinted meddig juthat el egy ilyen rendszer? Vajon tényleg képes lesz egyszer túlnőni alkotóin? Egy biztos: ha most nem figyelünk oda ezekre az új tanulási technikákra, könnyen lemaradhatunk arról a forradalomról, ami már zajlik körülöttünk.
Forrás: https://www.wired.com/story/ai-models-keep-learning-after-training-research/






