Szerkesztői megjegyzés: Ez a cikk az AI Watchdog sorozat része, amely az The Atlantic folyamatos vizsgálata a generatív mesterséges intelligencia iparágáról.
Mi az a Common Crawl és miért fontos?
A Common Crawl Foundation egy viszonylag ismeretlen nonprofit szervezet, amely több mint egy évtizede gyűjt hatalmas mennyiségű weboldalt – több milliárdot –, hogy létrehozzon egy petabájtnyi méretű internet-archívumot. Ez az adatbázis kutatási célokra ingyenesen elérhető, és számos tudományos területen használták már, például gépi fordítás fejlesztésére, orvosi fórumok elemzésére vagy akár könyvtiltások vizsgálatára különböző országokban.
A Common Crawl alapítója, Gil Elbaz 2012-ben így fogalmazott: „Csak arra kell ügyelnünk, hogy az emberek helyesen használják az adatokat. A tisztességes felhasználás lehetővé teszi bizonyos dolgokat a világ adataival, amennyiben tiszteletben tartják a szerzői jogokat.”
A vitatott gyakorlat: fizetős híroldalak tartalmának begyűjtése
A Common Crawl honlapja szerint kizárólag „szabadon elérhető tartalmakat” gyűjtenek, és nem lépnek be fizetős oldalak mögé. Azonban kiderült, hogy a szervezet olyan cikkeket is begyűjtött, amelyekhez normál esetben előfizetés szükséges – például olyan neves lapokból, mint The New York Times, The Economist, The Wall Street Journal, vagy The Atlantic. Ez azt jelenti, hogy az AI-fejlesztők ingyen hozzáférhetnek magas színvonalú újságíráshoz, anélkül hogy engedélyt kérnének vagy fizetnének érte.
A Common Crawl ügyvezető igazgatója, Rich Skrenta nyilvánosan is kiállt amellett, hogy az AI-modelleknek hozzá kell férniük minden internetes tartalomhoz. „A robotok is emberek” – mondta –, ezért nekik is szabadon kell olvasniuk a könyveket és cikkeket. Több kiadó kérte már a nonprofitot, hogy távolítsa el a saját tartalmait az archívumból, ám a kutatásaink szerint ezeket a kéréseket nem teljesítik maradéktalanul.
Hogyan kerülnek be ezek a cikkek az archívumba?
A Common Crawl nem jelentkezik be a weboldalakra, de olyan technikákat alkalmaz, amelyek megkerülik bizonyos fizetős falakat. Sok híroldalon ugyanis rövid ideig látható a teljes cikk szövege még mielőtt a böngésző végrehajtaná a fizetős fal kódját. A Common Crawl robotja azonban nem futtatja ezt a kódot, így hozzáfér teljes cikkekhez.
Ennek eredményeként milliószámra találhatók archívumaikban fizetős híroldalak cikkei világszerte. Bár néhány kiadó már blokkolta a Common Crawl robotját (CCBot), ez csak az újabb tartalmak begyűjtését akadályozza meg; a korábban összegyűjtött anyagokat nem törlik.
Tények és ellentmondások: eltávolítási kérelmek és valóság
Például 2023 júliusában The New York Times hivatalosan kérte Common Crawl-tól korábban begyűjtött tartalmaik eltávolítását. Bár a nonprofit látszólag együttműködött, kutatásaink szerint sok cikk továbbra is elérhető az archívumban.
A dán Rights Alliance (DRA) hasonló tapasztalatokról számolt be: több hónapos egyeztetés után is csak részleges törléseket jeleztek vissza nekik (50-80%-os eltávolításról). A fájlok módosítási időbélyegzői alapján úgy tűnik, hogy 2016 óta nem történt valódi törlés az archívumban.
Common Crawl és az AI ipar kapcsolata
A nonprofit 2023-ban jelentős támogatásokat kapott AI-fejlesztő cégektől, mint például OpenAI vagy Anthropic. Ezek a vállalatok gyakran használják Common Crawl adatait nagy nyelvi modellek (LLM-ek) képzésére. OpenAI például 2020-ban GPT-3 modelljének tanításához használta fel az archívumot – ez vezetett később ChatGPT megszületéséhez.
A fejlesztők általában szűrik az adatokat – eltávolítva például rasszista vagy trágár tartalmakat –, de számos különböző adatcsomag jött létre ebből az alapból (például Google által készített C4). A Common Crawl maga is aktívan részt vesz AI-képzési adatkészletek összeállításában és terjesztésében.
Szerzői jogok és etikai kérdések
A cégek gyakran hivatkoznak arra, hogy a szerzői jogi anyagok használata „fair use” kategóriába esik. Rich Skrenta pedig már évek óta érvel úgynevezett „robotjogok” mellett – azt állítva, hogy az intelligens gépeknek szabad hozzáférést kell kapniuk minden információhoz.
Ez azonban elfedi azt a tényt, hogy nem robotokról van szó, hanem nagyvállalatokról és vezetőikről, akik döntenek arról, milyen tartalommal képezik modelljeiket és kik profitálnak ebből.
Milyen megoldások lehetnének?
Egy volt Mozilla-kutató javasolta, hogy Common Crawl követelje meg az attribúciót minden felhasznált tartalom esetén. Ez segítene nyomon követni a kiadók munkájának felhasználását – különösen akkor, ha azok engedély nélkül kerülnek be AI-képzési adatokba. Ez egy bevett gyakorlat lenne nyílt adatbázisok esetén és költségmentes lenne.
Skrenta azonban elutasította ezt az ötletet mondván: „Nem mi vagyunk felelősek ezért. Nem tudjuk ezt felügyelni.” Hangsúlyozta továbbá, hogy azoknak a kiadóknak, akik nem akarják tartalmaikat az interneten látni, egyszerűen nem kellett volna feltölteniük őket oda.
A nyílt web jövője és etikai dilemmák
Skrenta szerint azok a kiadók, akik eltávolítást kérnek, „megölik a nyílt webet”. Az AI-ipar pedig gyakran hivatkozik arra, hogy joga van letapogatni bármit az interneten az információ szabadságára hivatkozva. Ugyanakkor sokan rámutatnak arra is: valójában ezek az AI-cégek ösztönzik a kiadókat arra, hogy erősítsék fizetős falaikat – ezzel korlátozva még inkább az információ szabad áramlását.
A Common Crawl gyakran idézi azt a technológiai libertárius gondolatot is („az információ szinte szabaddá akar válni”), amely Stewart Brand 1984-es megjegyzéséből ered. Brand azonban hangsúlyozta annak paradox természetét: bár az információ értékes és drága akar lenni, számítógépek miatt mégis olcsón terjeszthetővé válik – tehát nem arról van szó, hogy kellene
Záró gondolatok: Egy archívum jövője és felelőssége
Skrenta nagy tisztelettel beszél saját archívumáról – szerinte ez civilizációnk teljesítményének dokumentuma. Egy nap szeretné „kristálykockára tenni és felrakni a Holdra”, hogy ha valami történne Földdel, idegenek rekonstruálhassák történelmünket.
Ugyanakkor hozzátette: „Az Economist és The Atlantic nem lesz rajta ezen a kockán. A te cikked sem.” Ez jól mutatja azt az ellentmondást is, ami körülveszi Common Crawl működését: miközben hatalmas mennyiségű adatot őriz meg és szolgáltat ingyenesen kutatásra és fejlesztésre, közben sok eredeti alkotó munkáját használja fel engedély nélkül – miközben ezt részben titkolja vagy félrevezeti partnereit.
Forrás: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/