Common Crawl és az AI: A nyílt internet árnyoldalai és a fizetős tartalmak kérdése

nov 6, 2025 | Tech

Szerkesztői megjegyzés: Ez a cikk az AI Watchdog sorozat része, amely az The Atlantic folyamatos vizsgálata a generatív mesterséges intelligencia iparágáról.

Mi az a Common Crawl és miért fontos?

A Common Crawl Foundation egy viszonylag ismeretlen nonprofit szervezet, amely több mint egy évtizede gyűjt hatalmas mennyiségű weboldalt – több milliárdot –, hogy létrehozzon egy petabájtnyi méretű internet-archívumot. Ez az adatbázis kutatási célokra ingyenesen elérhető, és számos tudományos területen használták már, például gépi fordítás fejlesztésére, orvosi fórumok elemzésére vagy akár könyvtiltások vizsgálatára különböző országokban.

A Common Crawl alapítója, Gil Elbaz 2012-ben így fogalmazott: „Csak arra kell ügyelnünk, hogy az emberek helyesen használják az adatokat. A tisztességes felhasználás lehetővé teszi bizonyos dolgokat a világ adataival, amennyiben tiszteletben tartják a szerzői jogokat.”

A vitatott gyakorlat: fizetős híroldalak tartalmának begyűjtése

A Common Crawl honlapja szerint kizárólag „szabadon elérhető tartalmakat” gyűjtenek, és nem lépnek be fizetős oldalak mögé. Azonban kiderült, hogy a szervezet olyan cikkeket is begyűjtött, amelyekhez normál esetben előfizetés szükséges – például olyan neves lapokból, mint The New York Times, The Economist, The Wall Street Journal, vagy The Atlantic. Ez azt jelenti, hogy az AI-fejlesztők ingyen hozzáférhetnek magas színvonalú újságíráshoz, anélkül hogy engedélyt kérnének vagy fizetnének érte.

A Common Crawl ügyvezető igazgatója, Rich Skrenta nyilvánosan is kiállt amellett, hogy az AI-modelleknek hozzá kell férniük minden internetes tartalomhoz. „A robotok is emberek” – mondta –, ezért nekik is szabadon kell olvasniuk a könyveket és cikkeket. Több kiadó kérte már a nonprofitot, hogy távolítsa el a saját tartalmait az archívumból, ám a kutatásaink szerint ezeket a kéréseket nem teljesítik maradéktalanul.

Hogyan kerülnek be ezek a cikkek az archívumba?

A Common Crawl nem jelentkezik be a weboldalakra, de olyan technikákat alkalmaz, amelyek megkerülik bizonyos fizetős falakat. Sok híroldalon ugyanis rövid ideig látható a teljes cikk szövege még mielőtt a böngésző végrehajtaná a fizetős fal kódját. A Common Crawl robotja azonban nem futtatja ezt a kódot, így hozzáfér teljes cikkekhez.

Ennek eredményeként milliószámra találhatók archívumaikban fizetős híroldalak cikkei világszerte. Bár néhány kiadó már blokkolta a Common Crawl robotját (CCBot), ez csak az újabb tartalmak begyűjtését akadályozza meg; a korábban összegyűjtött anyagokat nem törlik.

Tények és ellentmondások: eltávolítási kérelmek és valóság

Például 2023 júliusában The New York Times hivatalosan kérte Common Crawl-tól korábban begyűjtött tartalmaik eltávolítását. Bár a nonprofit látszólag együttműködött, kutatásaink szerint sok cikk továbbra is elérhető az archívumban.

A dán Rights Alliance (DRA) hasonló tapasztalatokról számolt be: több hónapos egyeztetés után is csak részleges törléseket jeleztek vissza nekik (50-80%-os eltávolításról). A fájlok módosítási időbélyegzői alapján úgy tűnik, hogy 2016 óta nem történt valódi törlés az archívumban.

Common Crawl és az AI ipar kapcsolata

A nonprofit 2023-ban jelentős támogatásokat kapott AI-fejlesztő cégektől, mint például OpenAI vagy Anthropic. Ezek a vállalatok gyakran használják Common Crawl adatait nagy nyelvi modellek (LLM-ek) képzésére. OpenAI például 2020-ban GPT-3 modelljének tanításához használta fel az archívumot – ez vezetett később ChatGPT megszületéséhez.

A fejlesztők általában szűrik az adatokat – eltávolítva például rasszista vagy trágár tartalmakat –, de számos különböző adatcsomag jött létre ebből az alapból (például Google által készített C4). A Common Crawl maga is aktívan részt vesz AI-képzési adatkészletek összeállításában és terjesztésében.

Szerzői jogok és etikai kérdések

A cégek gyakran hivatkoznak arra, hogy a szerzői jogi anyagok használata „fair use” kategóriába esik. Rich Skrenta pedig már évek óta érvel úgynevezett „robotjogok” mellett – azt állítva, hogy az intelligens gépeknek szabad hozzáférést kell kapniuk minden információhoz.

Ez azonban elfedi azt a tényt, hogy nem robotokról van szó, hanem nagyvállalatokról és vezetőikről, akik döntenek arról, milyen tartalommal képezik modelljeiket és kik profitálnak ebből.

Milyen megoldások lehetnének?

Egy volt Mozilla-kutató javasolta, hogy Common Crawl követelje meg az attribúciót minden felhasznált tartalom esetén. Ez segítene nyomon követni a kiadók munkájának felhasználását – különösen akkor, ha azok engedély nélkül kerülnek be AI-képzési adatokba. Ez egy bevett gyakorlat lenne nyílt adatbázisok esetén és költségmentes lenne.

Skrenta azonban elutasította ezt az ötletet mondván: „Nem mi vagyunk felelősek ezért. Nem tudjuk ezt felügyelni.” Hangsúlyozta továbbá, hogy azoknak a kiadóknak, akik nem akarják tartalmaikat az interneten látni, egyszerűen nem kellett volna feltölteniük őket oda.

A nyílt web jövője és etikai dilemmák

Skrenta szerint azok a kiadók, akik eltávolítást kérnek, „megölik a nyílt webet”. Az AI-ipar pedig gyakran hivatkozik arra, hogy joga van letapogatni bármit az interneten az információ szabadságára hivatkozva. Ugyanakkor sokan rámutatnak arra is: valójában ezek az AI-cégek ösztönzik a kiadókat arra, hogy erősítsék fizetős falaikat – ezzel korlátozva még inkább az információ szabad áramlását.

A Common Crawl gyakran idézi azt a technológiai libertárius gondolatot is („az információ szinte szabaddá akar válni”), amely Stewart Brand 1984-es megjegyzéséből ered. Brand azonban hangsúlyozta annak paradox természetét: bár az információ értékes és drága akar lenni, számítógépek miatt mégis olcsón terjeszthetővé válik – tehát nem arról van szó, hogy kellene

Záró gondolatok: Egy archívum jövője és felelőssége

Skrenta nagy tisztelettel beszél saját archívumáról – szerinte ez civilizációnk teljesítményének dokumentuma. Egy nap szeretné „kristálykockára tenni és felrakni a Holdra”, hogy ha valami történne Földdel, idegenek rekonstruálhassák történelmünket.

Ugyanakkor hozzátette: „Az Economist és The Atlantic nem lesz rajta ezen a kockán. A te cikked sem.” Ez jól mutatja azt az ellentmondást is, ami körülveszi Common Crawl működését: miközben hatalmas mennyiségű adatot őriz meg és szolgáltat ingyenesen kutatásra és fejlesztésre, közben sok eredeti alkotó munkáját használja fel engedély nélkül – miközben ezt részben titkolja vagy félrevezeti partnereit.

Forrás: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/

Az mRNS vakcinák áttörése a rákkezelésben: COVID-19 oltások és az immunterápia új dimenziói

Az mRNS vakcinák nem csupán a COVID-19 vírusfertőzés elleni védekezésben játszanak kulcsszerepet, hanem egyre több tudományos bizonyíték támasztja alá, hogy az immunrendszerünk hatékonyabb rákellenes harcra való felkészítésében is jelentős szerepük lehet. A...

Zohran Mamdani kampánya: Az online kommunikáció új mércéje a demokraták számára

Zohran Mamdani, New York városának megválasztott polgármestere, nem csupán politikai győzelmével, hanem az online kommunikáció terén alkalmazott újszerű stratégiájával is példát mutatott. Kampánya új standardot állított fel arra vonatkozóan, hogyan tudnak a demokraták...

Zohran Mamdani: New York első szocialista polgármestere és a Wall Street reakciója

Zohran Mamdani megválasztása New York polgármesterévé történelmi jelentőségű esemény, hiszen ő lesz az első szocialista vezetője a világ pénzügyi fővárosának. Ez a győzelem éles törést jelent a város üzleti elitje és választói között, egyben szélesebb társadalmi és...

Bad Bunny és a Grammy-díjak: Nominációk, történelmi esélyek és a Super Bowl hatása

Februári Grammy-díj nominációk bejelentése péntek reggel várható, amelyet számos szaklap és díjfogadó oldal már izgatottan vár. A legesélyesebb jelöltek között emlegetik Kendrick Lamart, Lady Gagát, valamint Bad Bunny-t, a közelgő Super Bowl félidei műsorának...

Lupusz és autoimmun betegségek: Ruth Wilson küzdelme és az új kutatási irányok

Ruth Wilson története jól példázza, milyen nehézségekkel járhat egy autoimmun betegség felismerése és kezelése. Hat éven át orvosról orvosra járt, miközben kiütések, duzzanatok, láz és erős fájdalmak kínozták. Többször is elküldték a sürgősségi osztályról anélkül,...

Rockstar Games és a GTA 6 dolgozók elbocsátása: Szakszervezeti harc és tiltakozások Londonban

A videojáték-ipar egyik legnagyobb botránya zajlik jelenleg Londonban, ahol a Rockstar North és a Take-Two Interactive londoni irodája előtt tüntetések zajlanak az Independent Workers' Union of Great Britain (IWGB) szervezet és a GTA 6 fejlesztőinek egy csoportja...

Mentális egészség és bizalom a pandémia után: kihívások és megoldások Bradfordban

A COVID-19 járvány elmúltával a vakcinákról szóló beszélgetések jelentősen csökkentek, és maga a vírus is kevésbé kerül elő a mindennapi párbeszédekben. Ugyanakkor más egészségügyi problémák továbbra is jelen vannak, különösen azoknál a betegeknél, akik pszichózissal...

Journey bejelentette búcsúturnéját: Az utolsó nagy kaland 2026-ban

A rockzene egyik ikonikus csapata, a Journey, hivatalosan is bejelentette, hogy hamarosan véget ér egy korszak: a zenekar 2026-ban indul el búcsúturnéjára, amely az utolsó nagy koncertsorozat lesz a legendás formáció életében. Bár a pontos befejezési dátum még nem...

Cloudflare: A kalózkodás elleni blokkolások kereskedelmi akadályokat jelentenek

Évente a United States Trade Representative (USTR), vagyis az Egyesült Államok Kereskedelmi Képviselőjének irodája közzéteszi a National Trade Estimate Report on Foreign Trade Barriers című jelentést, amely a külföldi kereskedelmi akadályokat elemzi. A dokumentum...

Lesz-e a kvantumszámítástechnika nagyobb, mint a mesterséges intelligencia?

Zoe Kleinman, BBC Technology szerkesztője A technológiai újságírók között régóta él egy mondás: vagy pontosan magyarázod el a kvantummechanikát, vagy úgy, hogy az emberek megértsék – de egyszerre egyik sem megy. Ez nem véletlen, hiszen a kvantummechanika egy különös...