A Reddit, a népszerű közösségi média platform, 2024. április 24-én pert indított a mesterséges intelligencia fejlesztéssel foglalkozó Perplexity AI és három másik szervezet ellen. A keresetben azzal vádolják őket, hogy ipari méretű, törvénytelen gazdasági tevékenységet folytatnak, amely során több millió Reddit-felhasználó hozzászólásait „kaparják le” kereskedelmi haszonszerzés céljából.
A per háttere és érintett felek
A Reddit keresete egy New York-i szövetségi bíróságon került benyújtásra, amelyben elsősorban a San Franciscóban működő Perplexity AI-t célozzák meg. A Perplexity egy mesterséges intelligencia chatbotot és válaszkereső rendszert fejleszt, amely a Google, ChatGPT és más online keresőszolgáltatók versenytársa kíván lenni.
A perben további alperesek is szerepelnek:
- Oxylabs UAB: egy litván adatkaparó cég, amely adatgyűjtési szolgáltatásokat nyújt.
- AWMProxy: egy webdomain, amelyet a Reddit „volt orosz botnetként” jellemzett.
- SerpApi: egy texasi startup vállalat, amely a weboldalán megemlíti a Perplexity AI-t ügyfelei között.
Ez már a második alkalom, hogy a Reddit jogi lépéseket tesz mesterséges intelligenciával foglalkozó cégek ellen: júniusban az Anthropic nevű nagy AI vállalatot perelte be hasonló okokból.
A Reddit álláspontja az adatkaparásról
Ben Lee, a Reddit jogi vezetője szerint az érintett cégek olyan „adatkaparók”, amelyek megkerülik a technológiai védelmi intézkedéseket, hogy ellopják az adatokat, majd ezeket eladják olyan ügyfeleknek, akik mesterséges intelligencia rendszereik képzéséhez keresnek anyagot. A Reddit különösen vonzó célpontnak számít, mivel az egyik legnagyobb és legdinamikusabb emberi beszélgetéseket tartalmazó online platform.
A Reddit keresete szerint ezek a cégek nemcsak megkerülik saját anti-scraping (adatkaparás elleni) védelmeiket, hanem „kikerülik a Google szabályozásait is, és közvetlenül a Google keresési eredményeiből gyűjtik le a Reddit tartalmait”.
Lee hozzátette: mivel közvetlenül nem tudják lekaparni a Reddit tartalmait, ezért elrejtik identitásukat és helyszínüket, valamint álcázzák webkaparó eszközeiket. Kiemelte továbbá, hogy a Perplexity AI legalább egy ilyen adatkaparótól vásárol lopott adatokat, inkább ezt választva, mintsem hogy törvényes megállapodást kössön magával a Reddittel.
Az érintett cégek reakciói
A Perplexity AI még nem kapta meg hivatalosan a keresetet, de közleményükben hangsúlyozták: „Mindig hevesen küzdeni fogunk azért, hogy a felhasználók szabadon és tisztességesen férhessenek hozzá a nyilvános tudáshoz. Megközelítésünk elveken alapul és felelősségteljes: pontos mesterséges intelligenciával szolgáltatunk tényalapú válaszokat, és nem tűrjük az átláthatóságot és közérdeket fenyegető lépéseket.”
A SerpApi ügyfélsiker igazgatója, Ryan Schafer e-mailben reagált: „Határozottan visszautasítjuk a Reddit állításait, és szándékunkban áll keményen védekezni bíróságon.”
Az Oxylabs nem válaszolt azonnal megkeresésre, míg az AWMProxy sem volt elérhető kommentárra.
A Reddit hasonlata és jogi stratégiája
A Reddit az érintett cégeket úgy hasonlította össze „bankrablókkal”, akik nem tudnak bejutni magába a banktrezorba, ezért inkább az értékszállító páncélautót törik fel. Ez jól szemlélteti azt az álláspontot, hogy ezek az entitások megkerülik a platform biztonsági intézkedéseit annak érdekében, hogy illegálisan jussanak hozzá tartalmakhoz.
A korábbi Anthropic elleni perben is hasonló érvekkel állt elő a Reddit: azt állították, hogy az Anthropic figyelmen kívül hagyta kéréseiket arra vonatkozóan, hogy hagyják abba tartalmaik használatát. Az Anthropic elleni ügyet eredetileg Kalifornia állami bíróságán indították el, majd áthelyezték szövetségi bíróságra; jelenleg 2025 januárjára tűztek ki tárgyalást.
Mesterséges intelligencia képzésének forrásai és licencmegállapodások
A digitális könyvek és hírcikkek mellett olyan weboldalak is fontos forrásai az AI rendszerek nyelvi mintáinak tanulásához, mint például a Wikipedia vagy éppen maga a Reddit. Ezek hatalmas mennyiségű írott anyagot biztosítanak az emberi nyelv mintázatainak elsajátításához.
A Reddit korábban licencmegállapodásokat kötött olyan nagyvállalatokkal is, mint például a Google vagy az OpenAI. Ezekért cserébe ezek a cégek fizetnek azért, hogy mesterséges intelligencia rendszereiket képezhessék több mint 100 millió napi aktív felhasználójuk nyilvános hozzászólásainak felhasználásával.
Ezekkel a licencszerződésekkel segítette elő a 20 éves online platform pénzügyi stabilitását is annak érdekében, hogy tavaly sikeresen debütáljon tőzsdei részvényesként Wall Street-en.
Összegzés
A Reddit legújabb jogi lépése rávilágít arra az egyre növekvő problémára, hogy miként használják fel mesterséges intelligencia fejlesztők illegálisan vagy etikátlan módon online közösségi tartalmakat. A per nem csupán egyetlen AI vállalat ellen irányul – hanem azok ellen is, akik technológiai eszközökkel megkerülik az adatvédelmi szabályokat és platformvédelmi intézkedéseket annak érdekében, hogy minél több adatot gyűjtsenek be kereskedelmi célokra.
Ezzel párhuzamosan pedig jól láthatóak azok az erőfeszítések is, amelyek révén egyes platformok – így maga a Reddit is – igyekeznek szabályozott keretek között értékesíteni adataikat mesterséges intelligencia fejlesztők számára licencmegállapodások formájában.