Az elmúlt években az AI-alapú deepfake technológiák jelentős fejlődésen mentek keresztül, különösen a hangalapú hamisítások terén. Míg a korai deepfake-ek technikailag lenyűgözőek voltak, létrehozásuk nehézkes volt, és még nem voltak teljesen meggyőzőek. Azonban 2020 környékétől kezdve a technológia gyorsan fejlődött, és mára eljutottunk odáig, hogy valós időben is képesek vagyunk meggyőző hangdeepfake-eket létrehozni.
A valós idejű hangdeepfake technológia áttörése
Az NCC Group, egy vezető kiberbiztonsági cég 2023 szeptemberében publikált jelentése szerint ma már elérhető egy olyan módszer, amely nyilvánosan hozzáférhető eszközök és megfizethető hardverek kombinációjával képes valós időben reprodukálni egy személy hangját. Ezt a technikát „deepfake vishing” (hangalapú adathalászat) néven említik.
Pablo Alobera, az NCC Group vezető biztonsági tanácsadója elmondta, hogy a valós idejű deepfake eszköz használata rendkívül egyszerű: „Mi egy weboldalt hoztunk létre egy indító gombbal. Csak rákattintasz a start gombra, és azonnal működésbe lép.” Ez azt jelenti, hogy az eszköz használata nem igényel különösebb technikai tudást vagy bonyolult beállításokat.
Hogyan működik a valós idejű hangdeepfake?
A kutatás során az NCC Group bemutatott egy mintahangot is, amely bizonyítja, hogy az eszköz nemcsak meggyőző minőségű hangot produkál, hanem szinte észrevehetetlen késleltetéssel működik. Érdekesség, hogy a bemutatóban használt bemeneti hangminőség kifejezetten gyenge volt, mégis az eredmény hitelesnek tűnt. Ez azt jelenti, hogy a rendszer széles körben használható különféle mikrofonokkal – legyen szó laptopokról vagy okostelefonokról.
Fontos megjegyezni, hogy bár az audio deepfake-ek nem újdonságok – például az ElevenLabs szolgáltatásaival már néhány percnyi hanganyagból is készíthetők hamisított beszédek –, ezek korábban nem működtek valós időben. Ez komoly korlátot jelentett, hiszen előre felvett hamis beszélgetések könnyen leleplezhetők voltak, ha a párbeszéd eltért a várt forgatókönyvtől. Az élő generálás pedig több másodperc késést okozott, ami szintén gyanút keltett.
Valós idejű deepfake és csalások: hogyan használják?
Alobera elmondása szerint az NCC Group ügyfelei beleegyezésével tesztelték az eszközt más technikákkal kombinálva, például hívóazonosító hamisítással (caller ID spoofing). Az eredmény lenyűgöző volt: „Szinte minden hívásunk sikeres volt. A célpontok elhitték, hogy valóban azokkal beszélnek, akiket utánoztunk.”
A kutatás különlegessége továbbá, hogy nem harmadik fél szolgáltatásaira épül, hanem nyílt forráskódú eszközöket és könnyen beszerezhető hardvert használ. Bár a legjobb teljesítményt csúcskategóriás GPU-val érték el, tesztelték egy Nvidia RTX A1000-es laptopon is – amely az Nvidia jelenlegi kínálatának egyik leggyengébb GPU-ja –, ahol mindössze fél másodperces késéssel tudott működni a rendszer.
Valós idejű videó deepfake-ek: közel a tökéletességhez?
Miközben az audio deepfake-ek már elérték a valós idejű működést, a videó deepfake-ek még nem képesek ilyen minőségben és sebességgel működni. Azonban ez sem tart sokáig: az utóbbi időszakban számos vírusvideó terjedt el TikTokon, YouTube-on és Instagramon, amelyek mesterséges intelligencia segítségével készültek.
Ezeket lehetővé tették olyan új AI modellek megjelenései, mint az Alibaba WAN 2.2 Animate vagy a Google Gemini Flash 2.5 Image (más néven Nano Banana). Ezekkel már nem csak hírességek arcát lehet hitelesen lemásolni, hanem gyakorlatilag bárkit bármilyen környezetbe helyezni.
Trevor Wiseman, az AI biztonsági tanácsadó cég The Circuit alapítója arról számolt be, hogy már találkozott olyan esetekkel is, amikor cégeket vagy magánszemélyeket sikeresen megtévesztettek videó deepfake-ekkel. Egy vállalat például egy hamisított személy miatt egy laptopot küldött ki egy amerikai címre – amely végül csalási célokat szolgált.
A videó deepfake-ek korlátai és jövője
Bár lenyűgözőek ezek az új videó deepfake-ek is, még mindig vannak korlátaik. A valós idejű audio deepfake-ekhez képest nem képesek még tökéletesen szinkronizálni az arckifejezést a beszédhanggal és érzelmi állapottal. Wiseman szerint például ha valaki izgatottan beszél, de arca érzelemmentes marad, az könnyen leleplezi a hamisítványt.
Ennek ellenére ez inkább kivételnek számít: a technológia már most elég fejlett ahhoz, hogy legtöbb ember számára megtévessze őket legtöbbször. Emiatt mind vállalatoknak, mind magánszemélyeknek új hitelesítési módszereket kell kidolgozniuk – amelyek nem csak hangra vagy videóra támaszkodnak –, hogy biztosan meg tudják állapítani kommunikációs partnereik valódiságát.
„Tudod, én baseball rajongó vagyok,” mondja Wiseman. „Mindig vannak jelek. Lehet ez klisésnek tűnik, de ebben a világban muszáj találni valamit, amivel meg tudod különböztetni a valódit a hamistól.”
Összegzés
A mesterséges intelligencia által vezérelt valós idejű hangdeepfake technológia új dimenzióba helyezi a digitális biztonság kérdését. Az NCC Group kutatása rámutat arra, hogy ezek az eszközök már most képesek megtéveszteni embereket telefonbeszélgetések során anélkül, hogy bármilyen feltűnő késés vagy minőségi probléma jelentkezne.
Ezzel párhuzamosan a videó deepfake-ek is rohamosan fejlődnek – bár még nem érték el ugyanazt a valós idejű minőséget –, így hamarosan ezek is komoly fenyegetést jelenthetnek mindennapi kommunikációnkra nézve.
Fontos tehát tudatosítani ezeket a veszélyeket és fejleszteni olyan hitelesítési módszereket, amelyek túlmutatnak a hagyományos hang- és videóalapú ellenőrzéseken.
Forrás: https://spectrum.ieee.org/real-time-audio-deepfake-vishing