Az utóbbi évek mesterséges intelligencia (MI) fejlődése számos szakértőben felvetette a kérdést, vajon az automatizáció mikor válthatja ki tömegesen az irodai dolgozókat. Egy friss kutatás azonban árnyalja ezt a képet, különösen az online szabadúszó munkák területén.
A Remote Labor Index: új mérce az MI gazdasági hasznosságának vizsgálatára
A Remote Labor Index egy új benchmark, amelyet a Scale AI adatannotációs cég és a Center for AI Safety (CAIS) nonprofit szervezet közösen fejlesztett ki. Ez a mérőszám azt méri, hogy a legfejlettebb MI-modellek milyen hatékonysággal képesek automatizálni gazdaságilag értékes munkafolyamatokat.
A kutatók különböző, szimulált szabadúszó feladatokat adtak több vezető MI-ügynöknek, hogy teszteljék képességeiket. Az eredmények meglepőek voltak: még a legjobb MI-ügynökök is kevesebb mint 3 százalékát tudták elvégezni a feladatoknak, összesen 1 810 dollárt kerestek egy lehetséges 143 991 dolláros keretből.
Mely MI-ügynökök teljesítettek a legjobban?
A vizsgált eszközök közül a legjobb eredményt a kínai Manus startup által fejlesztett Manus érte el. Őt követte az xAI Grok nevű ügynöke, majd Anthropic Claude-ja, OpenAI ChatGPT-je és végül Google Gemini-je.
Dan Hendrycks, a CAIS igazgatója szerint ez az eredmény sokkal pontosabb képet ad az MI jelenlegi képességeiről. Bár néhány ügynök jelentős fejlődést mutatott az elmúlt év során, ez nem jelenti azt, hogy ez a fejlődés ugyanolyan ütemben folytatódik majd.
Az MI és az irodai munkahelyek kiváltásának mítosza
A mesterséges intelligencia látványos előrelépései miatt sokan spekulálnak arról, hogy hamarosan az MI meghaladja az emberi intelligenciát és tömegesen helyettesíti majd a dolgozókat. Például márciusban Dario Amodei, az Anthropic vezérigazgatója azt jósolta, hogy néhány hónapon belül a kódolási munkák 90 százaléka automatizálttá válik.
Korábbi AI hullámok is hasonló túlzó jóslatokat szültek, például arról, hogy hamarosan az AI algoritmusok váltják fel a radiológusokat. Azonban ezek a jóslatok nem váltak valóra, és jelen kutatás is arra utal, hogy az automatizáció korlátokba ütközik.
A kutatás módszertana: valós szabadúszó feladatok tesztelése
A kutatók valódi Upwork platformon dolgozó hitelesített szabadúszók által generált feladatokat használtak. Ezek között szerepeltek grafikai tervezés, videószerkesztés, játékfejlesztés és adminisztratív tevékenységek, például adatgyűjtés (scraping).
Minden feladathoz mellékeltek egy részletes leírást, egy fájlmappát a szükséges anyagokkal és egy ember által készített mintapéldányt is. Ez lehetővé tette az MI-ügynökök számára, hogy megpróbálják elvégezni a munkát emberi referencia alapján.
Miért küzdenek még mindig az MI-modellek?
Hendrycks rámutatott, hogy bár az MI-modellek jelentős fejlődést értek el kódolásban, matematikában és logikai következtetésben, továbbra is nehézségeik vannak komplex feladatok elvégzésében, amelyek több lépcsős folyamatokat igényelnek.
- Nincs hosszú távú memória: Az MI nem képes folyamatosan tárolni és alkalmazni korábbi tapasztalatokat.
- Nincs folyamatos tanulás: Nem tudnak munka közben új készségeket elsajátítani úgy, mint az emberek.
- Eszközhasználati nehézségek: Az összetett eszközök kezelése és integrálása kihívást jelent számukra.
Ellentmondó eredmények: Remote Labor Index vs. OpenAI GDPval benchmark
A Remote Labor Index eredményei ellentétben állnak egy szeptemberben publikált OpenAI benchmarkkal, amelyet GDPval-nak neveznek. Ez utóbbi azt állítja, hogy olyan élvonalbeli AI-modellek, mint például a GPT-5 közelítenek az emberi teljesítményhez 220 különböző irodai munkafeladatban.
Az OpenAI azonban nem adott hivatalos kommentárt ezzel kapcsolatban. Így jelenleg két eltérő mérce létezik arra vonatkozóan, milyen mértékben képesek az MI-modellek gazdaságilag értékes munkákat automatizálni.
Következtetések: Az MI még nem váltja le tömegesen az irodai dolgozókat
A Remote Labor Index kísérlete világosan rámutat arra, hogy még a legfejlettebb mesterséges intelligencia ügynökök sem képesek hatékonyan helyettesíteni az embereket számos online szabadúszó munkában. A komplexitás és a több lépcsős feladatok továbbra is komoly akadályt jelentenek.
Ez azt jelenti, hogy bár az MI fejlődése lenyűgöző és számos területen segítheti a munkavégzést, egyelőre nem fenyegeti közvetlenül tömegesen az irodai munkahelyeket vagy a kreatív szakmákat. A jövőbeni fejlesztések ugyanakkor továbbra is izgalmas lehetőségeket rejtenek magukban.
Forrás: https://www.wired.com/story/ai-agents-are-terrible-freelance-workers/