Az elmúlt héten a Reddit beperelte az úgynevezett „adatgyűjtő” cégeket és az AI vállalat Perplexity-t, ami elsőre egy újabb szokványos jogi csatározásnak tűnt az AI-képzéshez használt adatok körül. Ám a perirat részletes elemzése rávilágít, hogy ennél sokkal súlyosabb problémáról van szó: a Reddit nem csupán az adatgyűjtőket támadja, hanem alapjaiban kérdőjelezi meg a nyílt internet lényegét, egy torzított szerzői jogi értelmezés mentén.
A per háttere: miért is indult ez az ügy?
A Reddit által indított per elsődleges célja állítólag az volt, hogy megvédje magát azoktól a cégektől, amelyek „adatgyűjtőként” működnek, vagyis automatizált eszközökkel gyűjtenek tartalmakat különböző forrásokból. Ez érinti például a Google keresési eredményeit is, amelyeken keresztül Reddit tartalmak is elérhetőek.
Fontos azonban megérteni: a Reddit nem azt állítja, hogy ezek a cégek illegálisan gyűjtenék közvetlenül a Reddit oldalairól az adatokat, hanem azt, hogy ők valójában a Google keresési eredményeit használják fel – amelyhez pedig állítólag technológiai védelmi intézkedéseket kerülnének meg.
Ez azért különösen problémás, mert a Google nem része a pernek, és a Reddit nem rendelkezik szerzői joggal a felhasználók által létrehozott tartalmakra – csak licencet kapott azok használatára. Ez pedig alapvetően megkérdőjelezi a Reddit érvelésének jogosságát.
Az adatgyűjtés és technológiai védelem körüli vita
A perirat szerint az érintett cégek – mint például SerpApi, Oxylabs és AWMProxy – úgynevezett „technológiai védelmi intézkedéseket” (Technological Control Measures – TCM) kerülnének meg, amikor automatizáltan hozzáférnek Google keresési eredményekhez, amelyek között Reddit tartalmak is szerepelnek.
Mi is az a TCM? A DMCA 1201-es szakasza tiltja bármilyen technológiai védelem megkerülését, amely szerzői joggal védett művekhez való hozzáférést szabályozza. Ez azonban elsősorban olyan esetekre vonatkozik, amikor közvetlenül szerzői joggal védett tartalomhoz próbálnak hozzáférni vagy azt másolni.
A Reddit érvelése szerint viszont már az is jogsértő lenne, ha valaki nem közvetlenül tőlük gyűjti be az adatokat, hanem például Google keresési eredményeken keresztül fér hozzá ugyanahhoz a tartalomhoz. Ez azonban ellentmond annak az alapvető működésnek, ahogy az internet és különösen a keresőmotorok működnek.
Perplexity szerepe és vitája
A Perplexity egy olyan mesterséges intelligencia alapú „válaszmotor”, amely többféle nagy nyelvi modellt (LLM) használva segít válaszokat adni felhasználói kérdésekre. Fontos megjegyezni, hogy Perplexity nem saját maga képezte ki ezeket a modelleket teljes egészében, hanem nyílt forráskódú modellek módosított változatait használja (például Meta Llama vagy Mistral).
Perplexity egyik fő jellemzője, hogy válaszaihoz forrásként hivatkozik linkekre – így ha egy válasz alapját egy Reddit bejegyzés képezi, akkor azt linkeli is. Ez tulajdonképpen megegyezik egy hagyományos keresőmotor működésével.
A Reddit azonban ezt sem engedi díjmentesen: licencdíjat követelne Perplexity-től azért, hogy hozzáférjenek ezekhez az adatokhoz. Perplexity viszont hangsúlyozza, hogy mivel nem képezik saját modelljeiket kizárólagosan Reddit tartalmán, ezért nincs szükségük ilyen licencre.
A nyílt internet elleni támadás?
A Reddit pert indítványa során azt állítja magáról, hogy ő „a nyílt internet védelmezője”, ám ez az állítás erősen ellentmondásos. A nyílt internet egyik alappillére ugyanis éppen az információk szabad elérhetősége és újrafelhasználhatósága – ideértve a szöveg- és adatbányászatot is.
Ha valaki azt mondja: „támogatom a nyílt internetet, de csak akkor ha én dönthetem el, ki használhatja fel az adataimat”, akkor valójában nem támogatja azt. Az internet szabadsága nem lehet szelektív vagy önkényes.
A DMCA 1201-es szakaszának túlzott alkalmazása
A DMCA 1201-es szakasza eredetileg arra szolgálna, hogy megakadályozza például digitális másolásvédelmek kijátszását. Azonban mára sok esetben visszaélésszerűen alkalmazzák ezt a törvényt olyan helyzetekben is, ahol nincs valódi szerzői jogsértés.
- Például olcsóbb tintapatronok vagy garázskapu távirányítók használatának korlátozására próbálták alkalmazni ezt a szabályt.
- Most pedig olyan esetekben akarják alkalmazni, amikor valaki nem közvetlenül egy weboldalról gyűjt adatot, hanem egy harmadik fél által elérhetővé tett keresési eredményből.
Következmények: mi történhet ha sikeres lesz ez a per?
Ha Reddit pert nyer ebben az ügyben:
- A keresőmotorok működése jelentősen korlátozottá válhatna – minden tartalomhoz külön licencet kellene kérni.
- A nyílt internet nagy része fizetős zónává alakulna át csak azok számára elérhetően, akik meg tudják fizetni ezeket a licencdíjakat.
- Sokkal több jogi per indulhatna hasonló alapon – ami ellehetetlenítené az innovációt és korlátozná az információszabadságot.
- Továbbá kiterjesztené abszurd módon a DMCA 1201-es szakaszának alkalmazását olyan helyzetekre is, ahol nincs valódi szerzői jogsértés.
Záró gondolatok
Bár sokan tisztelik és kedvelik a Reddit közösségi platformját mint egy fókuszált online közösséget, ez a per komoly fenyegetést jelent mindazokra nézve, akik hisznek egy szabadabb és nyitottabb internetben. A jelenlegi per inkább tűnik egy rosszul célzott pénzszerzési kísérletnek mint valódi védelemnek.
Kívánatos lenne, hogy Reddit újragondolja stratégiáját és olyan megoldásokat keressen, amelyek nem ássák alá az internet szabadságát és működését. Az innováció és információszabadság védelme érdekében elengedhetetlen egy kiegyensúlyozottabb megközelítés kialakítása.
Forrás: https://www.techdirt.com/2025/10/24/reddits-ai-scraping-lawsuit-is-an-attack-on-the-open-internet/