A Reddit, a népszerű közösségi média platform, 2024. április 24-én pert indított a mesterséges intelligencia fejlesztő Perplexity AI és három másik szervezet ellen. A keresetben azzal vádolják őket, hogy ipari méretű, törvénytelen gazdasági tevékenységet folytatnak, amely során több millió Reddit-felhasználó hozzászólásait „kaparják le” kereskedelmi haszonszerzés céljából.
A Reddit keresete és az érintett cégek
A Reddit keresetet nyújtott be egy New York-i szövetségi bíróságon, amelyben a San Franciscóban működő Perplexity AI-t célozza meg. A Perplexity egy mesterséges intelligencia chatbotot és válaszkereső motort fejleszt, amely versenyez olyan nagy szereplőkkel, mint a Google vagy a ChatGPT.
A perben további alperesként szerepel a litvániai Oxylabs UAB, amely adatkaparó szolgáltatásairól ismert, valamint az AWMProxy nevű webdomain, amelyet a Reddit korábbi orosz botnetként jellemzett. Emellett Texasból származó startup, a SerpApi is érintett, amely honlapján megemlíti a Perplexity AI-t ügyfelei között.
Az ügy háttere és jelentősége
Ez már a második alkalom, hogy a Reddit jogi lépéseket tesz mesterséges intelligenciával foglalkozó vállalatok ellen: júniusban az Anthropic nevű cég ellen indított pert. Az új kereset azonban nem csupán egyetlen AI-céget érint, hanem azokat a kevésbé ismert szolgáltatókat is, amelyek az AI-ipar számára gyűjtik össze az online tartalmakat chatbotok tanításához.
Ben Lee, a Reddit jogi vezetője így nyilatkozott: „Az adatkaparók megkerülik a technológiai védelmi intézkedéseket, hogy ellopják az adatokat, majd eladják őket azoknak az ügyfeleknek, akik képzési anyagokat keresnek. A Reddit kiemelt célpont, mert ez az egyik legnagyobb és legdinamikusabb emberi beszélgetéseket tartalmazó gyűjtemény.”
A vádlottak álláspontja
A perben érintett cégek eltérően reagáltak:
- Perplexity AI: Még nem kapták meg hivatalosan a keresetet, de közölték: „Mindig hevesen küzdenek azért, hogy a felhasználók szabadon és tisztességesen férjenek hozzá a nyilvános tudáshoz. Felelős módon biztosítjuk a pontos AI-alapú válaszokat, és nem tűrjük az átláthatóság és közérdek elleni fenyegetéseket.”
- SerpApi: Ryan Schafer ügyfélsiker igazgató e-mailben jelezte: „Határozottan visszautasítjuk a Reddit állításait és szándékunkban áll keményen védekezni.”
- Oxylabs: Közleményükben csalódottságukat fejezték ki és hangsúlyozták: „Nem habozunk megvédeni magunkat ezekkel az állításokkal szemben. Véleményünk szerint senki sem tulajdoníthatja magának azt a nyilvános adatot, amely nem az övé.”
- AWMProxy: Azonnal nem volt elérhető nyilatkozatra.
Az adatkaparás gyakorlata és jogi kérdések
A nyilvánosan elérhető online adatok kaparása széles körben alkalmazott módszer üzleti és kutatási célokra. A Reddit azonban éles kritikával illeti azokat a cégeket, amelyek szerinte úgy viselkednek, mint „bankrablók”, akik nem tudnak bejutni a bank páncéltermébe, ezért inkább egy páncélautót törnek fel.
A kereset szerint ezek a vállalatok megkerülik Reddit saját anti-scraping (adatkaparás elleni) védelmi rendszereit, továbbá „megkerülik a Google irányelveit is, és közvetlenül Google keresési eredményekből kaparják le a Reddit tartalmait”. Ben Lee elmondta: „Mivel nem tudnak közvetlenül Redditet kaparni, álcázzák magukat, elrejtik helyzetüket és webkaparóikat annak érdekében, hogy ellopják a tartalmakat Google Search-ből. A Perplexity pedig tudatosan vásárol ilyen lopott adatokat legalizált megállapodás helyett.”
A korábbi per Anthropic ellen
A Reddit hasonló érvekkel lépett fel Anthropic ellen is: azt állította, hogy az AI-cég figyelmen kívül hagyta kérelmeiket tartalmaik használatának beszüntetésére. Az Anthropic elleni ügy eredetileg Kaliforniai Állami Bíróságon indult, majd átkerült szövetségi bíróságra; tárgyalása 2025 januárjára van kitűzve.
Miért fontosak ezek az adatok az AI fejlesztésében?
A digitalizált könyvek és hírcikkek mellett olyan weboldalak mint a Wikipedia vagy éppen a Reddit hatalmas mennyiségű írott anyagot tartalmaznak. Ezek nélkülözhetetlenek ahhoz, hogy egy mesterséges intelligencia asszisztens megtanulja az emberi nyelv mintázatait.
A Reddit korábban már kötött licencmegállapodásokat olyan nagyvállalatokkal mint a Google vagy OpenAI. Ezekért cserébe fizetnek azért, hogy mesterséges intelligencia rendszereiket tréningezzék több mint 100 millió napi aktív felhasználójuk nyilvános hozzászólásain.
A licencmegállapodások jelentősége
Ezek a licencszerződések lehetővé tették a 20 éves online platform számára, hogy tőkét vonjon be tőzsdei debütálása előtt tavaly. A Reddit számára kulcsfontosságú volt ez az anyagi forrás ahhoz, hogy tovább fejlődhessen és fenntarthassa szolgáltatásait.
Záró gondolatok
A szabad sajtó alapvető pillére egy egészséges demokráciának. Az ilyen jogi viták rávilágítanak arra is, milyen kihívásokkal néz szembe az online tartalomgazdálkodás és mesterséges intelligencia fejlődése napjainkban.
Támogassa Ön is a megbízható újságírást és kulturált párbeszédet!