OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている – GIGAZINE

2025年11月05日 21時00分
AI

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。

Common Crawl Is Doing the AI Industry’s Dirty Work – The Atlantic
https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/

The Atlanticの調査によると、Common CrawlはAI企業に対し、主要なニュースサイトのペイウォールの内側にある記事への「裏口」を提供していると指摘されています。Common Crawlは「自由に利用可能なコンテンツ」のみを収集し「ペイウォールの背後には行かない」と明記していますが、実際にはペイウォールで閲覧できなくなっているはずの有料記事の内容も取得しています。多くのペイウォールは「ブラウザが記事の全文を読み込んだ後、『ユーザーが購読者か否かを確認するコード』を実行し、購読者でない場合は記事を非表示する」という仕組みで動作しているのですが、Common Crawlのスクレイパーは「ユーザーが購読者か否かを確認するコード」を実行せずにペイウォール内の記事全文を取得しているとのこと。

さらに、Common Crawlはパブリッシャーに対して、アーカイブの内容について虚偽の説明をしている疑いがあるとThe Atlanticは主張しました。

2023年7月、The New York TimesはCommon Crawlに対し、過去に収集されたコンテンツの削除を要請しました。Common Crawlはこれに応じたかのように見えましたが、The Atlanticがアーカイブを調査したところ、多くの記事が依然として存在していることが判明しました。デンマーク権利同盟(DRA)や他のパブリッシャーも同様の経験をしており、Common Crawl側は「50％完了」「80％完了」といった説明をしていますが、技術的な調査では、アーカイブのコンテンツファイルが少なくとも2016年以降変更された形跡がなく、過去9年間コンテンツが削除されていない可能性が示唆されています。

Common Crawlのエグゼクティブ・ディレクターであるリッチ・スクレンタ氏は、削除要請は「面倒だ」と認めつつ、アーカイブのファイル形式が「不変」であり「何も削除できない」とも述べています。

一方でスクレンタ氏は、AIはインターネット上のあらゆるものに無料でアクセスできるべきだとし、「ロボットも人間だ(The robots are people too)」とThe Atlanticに語りました。また、コンテンツ削除を要求するパブリッシャーに対し「インターネットにコンテンツを置くべきではなかった」とも発言しています。

Common Crawlは近年、AI産業との関係を深めています。2023年にはOpenAIから25万ドル(約3840万円)、Anthropicから25万ドル(約3840万円)の寄付を受け、NVIDIAのAI訓練データセットをホストするなど、データ配布にも協力しています。

スクレンタ氏は、パブリッシャーによる削除要求が「オープンウェブを殺す」と主張していますが、The Atlanticはむしろ、生成AI企業による搾取的なスクレイピングこそがパブリッシャーにペイウォールの強化を促し、オープン性を損なっていると反論しています。スクレンタ氏はCommon Crawlのアーカイブを「文明の記録」として人類滅亡後に備え月に送りたいと語る一方で、The Atlanticを含む特定のジャーナリズムの価値を軽視する発言をしているとThe Atlanticは批判しました。
+= 2

この記事のタイトルとURLをコピーする

X/旧Twitterが「ユーザーデータでサードパーティのAIモデルがトレーニングできる」ようにプライバシーポリシーを更新、オプトアウト可能かどうかは不明 – GIGAZINE

Cloudflareが学習用データを収集するAIボットを一括でブロックする機能をリリース – GIGAZINE

ネット上の公開情報を自動抽出するスクレイピングは問題ないと改めて控訴裁判所が判断 – GIGAZINE

ウェブサイトの情報を自動で取得する「ウェブスクレイピング」をJavaScriptで行う方法 – GIGAZINE

ソース元はコチラ