Common Crawl és az AI: A nagy nyilvánosság előtt rejtett adatgyűjtés és a jogi viták

nov 4, 2025 | Tech

Szerkesztői megjegyzés: Ez a cikk az AI Watchdog sorozat része, amely az The Atlantic folyamatos vizsgálata a generatív mesterséges intelligencia iparágáról.

Mi az a Common Crawl?

A Common Crawl Foundation egy viszonylag ismeretlen nonprofit szervezet, amely több mint egy évtizede gyűjti össze az interneten található weboldalak milliárdjait. Ez az adatbázis, amely petabájtokban mérhető, szabadon hozzáférhető kutatási célokra. Az archívumot különféle tudományos és technológiai kutatásokhoz használják, például gépi fordítási rendszerek fejlesztéséhez, orvosi fórumok elemzéséhez vagy akár könyvtiltások tanulmányozásához különböző országokban.

A Common Crawl alapítója, Gil Elbaz 2012-ben így nyilatkozott: „Csak arra kell ügyelnünk, hogy az emberek helyesen használják az adatokat. A tisztességes felhasználás lehetővé teszi bizonyos dolgokat a világ adataival, amennyiben tiszteletben tartják a szerzői jogokat.”

A vitatott gyakorlat: fizetős tartalmak engedély nélküli begyűjtése

A Common Crawl honlapja szerint kizárólag „szabadon elérhető tartalmakat” gyűjtenek be, és nem lépnek be fizetős oldalak mögé. Azonban a valóság ennél árnyaltabb: az archívumban számos olyan cikk található, amelyekhez normál esetben előfizetés szükséges. Így olyan nagy hírportálok anyagai kerülnek be ingyenesen az adatbázisba, mint például The New York Times, The Wall Street Journal, The Economist, vagy éppen The Atlantic.

A Common Crawl végrehajtó igazgatója, Rich Skrenta nyíltan kiáll amellett, hogy az AI modelleknek hozzáférést kell kapniuk minden internetes tartalomhoz. „A robotok is emberek,” mondta, ezért nekik is joguk van „ingyen olvasni a könyveket”. Több kiadó is kérte már a nonprofitot, hogy távolítsa el az ő tartalmaikat az archívumból, ám a vizsgálatok szerint ezek a kérések nem teljesülnek maradéktalanul.

Hogyan használják az AI cégek a Common Crawl adatait?

A Common Crawl által begyűjtött oldalak százezrei jelennek meg különböző mesterséges intelligencia modellek tanítóanyagában. Például az OpenAI 2020-ban használta fel ezt az adatbázist GPT-3 modellje képzéséhez – amely később alapjául szolgált a ChatGPT-nek. Ezek a modellek képesek olyan hírcikkeket generálni, amelyeket emberi értékelők nehezen tudnak megkülönböztetni valódi újságírástól.

Számos AI vállalat alkalmazza ezeket a kiadói cikkeket arra, hogy összefoglalókat és átfogalmazásokat készítsen hírekről – ezzel azonban olvasókat vonnak el az eredeti szerzőktől és kiadóktól.

A fizetős falak kijátszása technikai eszközökkel

A Common Crawl nem jelentkezik be a weboldalakra, így nem hajt végre olyan kódokat sem, amelyek ellenőrzik az előfizetői jogosultságot. Sok hírportál esetében ugyanis rövid ideig látható a teljes cikk szövege még mielőtt a fizetős fal aktiválódna. A Common Crawl robotjai ezt kihasználva letöltik a teljes tartalmat anélkül, hogy előfizetésük lenne.

Ezért becslések szerint több millió cikk található meg ilyen módon az archívumban olyan neves forrásoktól, mint például:

  • The Economist
  • Los Angeles Times
  • The Wall Street Journal
  • The New York Times
  • The New Yorker
  • Harper’s Magazine
  • The Atlantic

Kiadói tiltakozások és eltávolítási kérelmek – mi történik valójában?

Több kiadó felismerte már ezt a problémát és blokkolta Common Crawl robotját (CCBot) weboldalaikon. Az elmúlt évben ez lett a leggyakrabban tiltott scraper az első 1000 leglátogatottabb weboldalon – megelőzve még OpenAI GPTBotját is.

Azonban ez csak jövőbeni adatgyűjtést akadályoz meg; a korábban begyűjtött tartalmak továbbra is elérhetők maradnak az archívumban. Például 2023 júliusában a The New York Times hivatalosan kérte Common Crawltól korábban begyűjtött anyagaik eltávolítását. Bár kezdetben úgy tűnt, hogy együttműködnek, később kiderült, hogy sok cikk még mindig megtalálható.

Hasonló eset történt Dániában is: a Danish Rights Alliance (DRA) több hónapon át tartó levelezés után kapott választ arról, hogy csak körülbelül felét távolították el tagjaik tartalmának. Egyéb kiadók is hasonló visszajelzéseket kaptak arról, hogy eltávolítási arányuk sosem haladja meg teljes mértékben a kért szintet.

A technikai korlátok és átláthatósági problémák

A Common Crawl archiváló fájlformátuma úgy van kialakítva, hogy gyakorlatilag nem módosítható vagy törölhető belőle semmi – legalábbis ezt mondja Skrenta igazgató. Ez azt jelenti, hogy bár elméletileg dolgoznak az eltávolításon, valójában nem tudják teljesen törölni a kérelmezett tartalmakat.

Ezzel párhuzamosan azonban a nonprofit félrevezető információkat közöl honlapján: például egy keresés bizonyos domainnevekre („nytimes.com”) azt mutatja ki, mintha nem lenne rögzített tartalom ezekről – miközben valójában rengeteg ilyen anyag megtalálható az archívumban.

Közvetlen kapcsolatok az AI iparággal és finanszírozás

Az elmúlt években Common Crawl egyre szorosabb kapcsolatba került mesterséges intelligenciával foglalkozó cégekkel. Miután hosszú ideig kizárólag családi alapítványok támogatták anyagilag, 2023-ban jelentős adományokat kapott olyan vállalatoktól mint OpenAI vagy Anthropic – összesen több százezer dollárt.

Adatkészletek létrehozása és terjesztése AI fejlesztők számára

A Common Crawl nem csupán nyers adatokat szolgáltat; aktívan részt vesz AI-képzési adatkészletek összeállításában és terjesztésében is. Fejlesztői több tudományos publikációban tárgyalták LLM-ek (nagy nyelvi modellek) képzéséhez szükséges adatok kurációját és gyakran konferenciákon mutatják be módszereiket.

Például Nvidia számára is készítettek ilyen adatkészletet, amelyről egy publikációban köszönetet mondanak bizonyos Common Crawl fejlesztőknek tanácsaikért.

A szerzői jogok és „tisztességes felhasználás” vitája

Az AI cégek gyakran hivatkoznak arra, hogy szerzői jogi szempontból „tisztességes felhasználás” keretein belül dolgoznak fel anyagokat. Rich Skrenta pedig már régóta robotjogokról beszélve próbálja érvelni amellett, hogy az intelligens gépeknek hozzáférést kell kapniuk minden internetes információhoz.

Ugyanakkor ez elfedi azt a tényt, hogy nem robotokról van szó döntési helyzetben, hanem nagyvállalatokról és vezetőikről, akik profitálnak ebből a gyakorlatból – miközben szerzők és kiadók érdekei sérülnek.

Milyen megoldások lehetnének?

Egy volt Mozilla kutató javaslata szerint Common Crawl bevezethetne kötelező forrásmegjelölést minden letöltött tartalom esetén. Ez segítene követni és ellenőrizni a felhasználást – különösen akkor, ha AI modellek képzésére kerül sor –, anélkül hogy korlátoznák az adatok hozzáférhetőségét.

Skrenta azonban elutasította ezt az ötletet mondván: „Nem mi vagyunk azok akik ezt ellenőrzik.” Szerinte ez nem közfeladatuk; „csak egy poros könyvespolc vagyunk”.

Kritika és zárógondolatok: Ki teszi tönkre az internet nyitottságát?

Skrenta szerint azok a kiadók teszik tönkre az internet nyitottságát, akik kérik tartalmaik eltávolítását – mert ezzel „megölik” az open web-et. Ugyanakkor más szakértők rámutatnak arra is, hogy valójában azok az AI cégek veszélyeztetik ezt a nyitottságot, akik ösztönzik a kiadókat arra, hogy erősítsék fizetős falaikat védekezésképpen.

A Common Crawl filozófiája szerint „az interneten él szabadon az információ”, ami egy techno-libertárius jelszóként ismert: „az információ szinte szabadságra vágyik”. Ez azonban Stewart Brand eredeti gondolatának félreértelmezése volt; Brand maga is hangsúlyozta annak értékét és költségét.

Skrenta véleménye saját archívumáról

Bár Skrenta kevés tiszteletet mutatott az eredeti újságírás iránt – például kijelentette: „Az Atlantic nem kulcsfontosságú része az internetnek” –, hatalmas tisztelettel beszélt saját archívumáról. Szerinte ez civilizációnk teljesítményének dokumentuma; szeretné egy kristálykockára helyezni és feltenni a Holdra azért, hogy ha egyszer elpusztulna Földünk, idegenek rekonstruálni tudják történelmünket.

Ugyanakkor hozzátette: „The Economist” vagy „The Atlantic” cikkei nem kerülnének fel erre a kockára – így még saját munkájának értékét sem helyezi előtérbe.

Forrás: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/?gift=hz3-sGceWBq1O6I5tAqH11JEN_ljw-12B2sbcbpmS9g

FT Today: Teljes hozzáférés a Financial Times napilaphoz bármilyen eszközön

FT Today egy egyedülálló előfizetési lehetőség azok számára, akik szeretnék naponta olvasni a Financial Times (FT) legfrissebb híreit és elemzéseit, anélkül, hogy az internetes oldal vagy az alkalmazás használatára támaszkodnának. Ez az előfizetés lehetővé teszi, hogy...

Egészségbiztosítás választása az USA-ban: Teljes útmutató 2025-re

Az egészségbiztosítás kiválasztása az Egyesült Államokban sokszor olyan, mintha egy bonyolult labirintusban vagy egy szinte megoldhatatlan keresztrejtvényen próbálnánk eligazodni. A különféle szakmai kifejezések – mint például HMO, PPO, önrész, díj, társfinanszírozás...

Miss Universe 2024 botrány: Victoria Kjær Theilvig kiáll a méltóságért és elhagyja a ceremóniát

A Miss Universe szervezetben feszültségek robbantak ki, amikor a jelenlegi címvédő, Victoria Kjær Theilvig váratlanul távozott egy szalagavató ceremóniáról Thaiföldön. Az esemény hátterében egy súlyos incidens állt, amely során egy magas rangú tisztségviselő...

Retinavizsgálat: Új lehetőség a szívbetegségek és biológiai öregedés előrejelzésére

A McMaster Egyetem és a Population Health Research Institute (PHRI) kutatói szerint a szem apró vérerei kulcsfontosságúak lehetnek annak megjóslásában, hogy egy személy milyen kockázattal rendelkezik a szívbetegségek kialakulására, illetve milyen gyorsan öregszik...

Charlamagne tha God figyelmeztet: A demokraták már elveszítették a kormányzati zárlat csatáját

Charlamagne tha God, népszerű rádiós műsorvezető, élesen bírálta a demokratákat, arra szólítva fel őket, hogy zárják le a kormányzati zárlatot, és nyissák újra a kormányt, hogy enyhítsenek az amerikai emberek helyzetén. Véleménye szerint ugyanis a demokraták már...

Amazon Fastnet: Az első teljes egészében saját tulajdonú tengeralatti optikai kábel projekt

Az Amazon új mérföldkőhöz érkezett a globális adatkommunikáció területén: bejelentette, hogy építi a Fastnet nevű tengeralatti optikai kábelt, amely Maryland keleti partvidékét köti majd össze Írország Cork megyéjével. Ez lesz az Amazon első olyan subsea...

Xiaomi okostelefonok és a kínai kémkedés: Xi Jinping vicce vagy komoly figyelmeztetés?

Az okostelefonok biztonsága egyre fontosabb téma világszerte, különösen akkor, ha a gyártók és az országok között politikai feszültségek is jelen vannak. Nemrégiben Kína elnöke, Xi Jinping tett egy meglepő megjegyzést, amely újra reflektorfénybe helyezte a kínai...

RSDI Hírek 2025: Nyugdíj, Özvegyi és Fogyatékossági Biztosítási Változások és Jogszabályi Újdonságok

Az Egyesült Államokban a Retirement, Survivors, and Disability Insurance (RSDI), vagyis a nyugdíj-, özvegyi és fogyatékossági biztosítási programok kulcsfontosságú pénzügyi biztonságot nyújtanak a nyugdíjas munkavállalóknak, túlélő házastársaknak és gyermekeknek,...

Gopichand Hinduja: A brit leggazdagabb család feje elhunyt 85 éves korában

Gopichand Hinduja, a Hinduja család milliárdos vezetője, aki Nagy-Britannia leggazdagabb családját irányította, 85 éves korában elhunyt. A londoni székhelyű üzletember hosszú betegség után hunyt el 2023. novemberében, amint azt a család szóvivője megerősítette. A...

Az önérzet zavara a pszichózisban: új kutatási eredmények az önáltal generált érzékelés feldolgozásáról

A pszichotikus zavarokkal élő személyek másképp dolgozzák fel azokat az érzéseket, amelyeket saját maguk idéznek elő, mint például a saját érintés vagy a szívverésük. Egy friss tanulmány szerint ez a megváltozott feldolgozás nem csupán az agyban, hanem már a...