MetaやOpenAIがAIモデル開発に使っていた世界最大級のオンライン海賊版ライブラリ「LibGen」とは？ – GIGAZINE

高性能なAIモデルを開発するには、膨大な量の高品質なデータを用いてトレーニングする必要があります。MetaやOpenAIがAIモデルのトレーニングに使ったとされるオンライン海賊版ライブラリ「Library Genesis(LibGen)」やその倫理的問題について、海外メディアのThe Atlanticが報じました。

The Unbelievable Scale of AI’s Pirated-Books Problem – The Atlantic
https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/

アメリカ人作家のサラ・シルバーマン氏らは2023年に、「MetaのLlamaやOpenAIのChatGPTは、違法にインターネット上に流通している作品をデータセットとしてトレーニングされたものであり、これにより著作権が侵害された」と主張してMetaやOpenAIを訴えました。

この裁判により、Metaの従業員らがLibGenを使用することにした経緯や、従業員らが海賊版ライブラリを使用することの問題を認識していたことが明らかになっています。2月に公開された(PDFファイル)Metaの社内チャットの記録では、AIのトレーニングに必要な書籍や研究論文のライセンス料について、従業員らが「不当なほど高価だ」と不満を漏らしていました。また、Llama開発チームの上級マネージャーは、データの開示に4週間以上かかる点についても問題視しています。

別の(PDFファイル)裁判文書では、Metaのエンジニアリングディレクターが「問題なのは、たった1冊でも本のライセンス契約をしてしまうと、フェアユース戦略に依存することができなくなると、人々が気付いていないという点です」と述べていたことが示されています。つまり、書籍や論文のトレーニングのためにライセンス契約を交わしてしまうと、それ以降「AIのトレーニングに著作権で保護された作品を使うことはフェアユースだ」と主張しにくくなるため、フェアユースの理論を使いたいならライセンス契約を結ぶべきではないというわけです。

最終的に従業員らは、オンラインの海賊版ライブラリである「LibGen」を使用することを決定し、マーク・ザッカーバーグCEOを指すと思われる「MZ」という人物からデータセットをダウンロードする許可を得ました。これらの証拠から、原告側は「Metaのマーク・ザッカーバーグCEOが、著作権で保護された書籍や文書を含むデータセットをLlamaの学習に用いることを承認していた」と主張しています。

また、過去にはOpenAIもLibGenをAIのトレーニングに使用していたことも明らかになりました。OpenAIの広報担当者はThe Atlanticによるコメント要請に対し、「今日のChatGPTと私たちのAPIを動かしているモデルは、これらのデータセットを使って開発されたものではありません。これらのデータセットは、すでにOpenAIに在籍していない元従業員によって作成されたもので、最後に使用されたのは2021年です」と述べています。

LibGenは2008年頃にロシアの科学者によって作成された海賊版ライブラリで、当初はアフリカやインド、パキスタン、イラン、イラク、中国、ロシア、旧ソ連諸国などの学会に属さない人々のために作られたとのこと。数年かけて論文以外の小説やノンフィクションなどの書籍も蓄積され、記事作成時点では750万冊以上の書籍と8100万本もの研究論文を含む世界最大級の海賊版ライブラリとなっています。

2024年にはニューヨーク連邦裁判所がLibGenに対し、著作権侵害による損害賠償として3000万ドル(約45億円)を支払うよう命じると共に、LibGenへのアクセス差し止め命令も下しました。しかしこの罰金も未払いのままで、オンライン海賊版ライブラリの規制はなかなか進んでいません。

海賊版図書館「Library Genesis」に40億円超の損害賠償支払いの判決、アクセス差し止めやドメイン使用禁止命令も – GIGAZINE

OpenAIやMetaはLibGenの使用についてフェアユースだと主張していますが、The AtlanticはLibGenのファイル共有プロトコルにBitTorrentが採用されている点に問題があると指摘。BitTorrentは複数のPC間で通信を行うP2Pをベースとしており、この仕組みによってLibGenからファイルをダウンロードするPCは、同時に他のユーザーへのアップロードも行うこととなります。

つまり、MetaやOpenAIがLibGenを使ったということは、第三者への海賊版ファイルの配布(シード)を行ったということも意味します。これは、ダウンロードしたファイルを生成AIのトレーニングに使用したかどうかにかかわらず、著作権法の下で違法だと立証されているとThe Atlanticは報じています。これに対してMetaのプロジェクト管理担当役員であるマイケル・クラーク氏は、構成設定で「可能な限り最小のシードが発生するようにした」と証言していますが、これは「BitTorrentを通じた海賊版ファイルのダウンロードに問題がある」と当時のMetaが認識していたことを示唆するものです。

実際、Metaの従業員らはLibGenによるLlamaのトレーニングが「中度～高度の法的リスク」をもたらすと認識しており、社内チャットやメールでその緩和策について話し合っていました。従業員らは「海賊版とわかったデータを削除する」「Llamaが出力の際にLibGenを含むトレーニングデータを引用しないようにする」「書籍のISBNや著作権保有者に関するすべての行を削除する」「書籍の本文を丸ごと書かせるような入力を拒否するように設定する」といった案を出していたとのこと。中には「会社のノートPCでトレントするのはいい気分じゃない」とコメントする従業員もいたことが(PDFファイル)裁判文書で判明しています。

なお、The Atlanticは、LibGenに含まれている書籍を検索するためのツールを公開しています。

Search LibGen, the Pirated-Books Database That Meta Used to Train AI – The Atlantic
https://www.theatlantic.com/technology/archive/2025/03/search-libgen-data-set/682094/

試しにツールの検索欄に「Murakami」と入力してみると、「Haruki Murakami(村上春樹)」や「Ryu Murakami(村上龍)」などが著わした膨大な量の作品が表示されました。

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

ついにGoogleマップから1万件以上もの偽レビュー・おとり商法など不正な偽ビジネスが削除され、黒幕の詐欺師がGoogleから訴えられる前の記事フランスでメッセージアプリの「バックドア義務化法案」が否決される、偶然電子投票システムが故障しハッキングかと騒ぎになる一幕も次の記事

関連記事

Intelが財務状態立て直しのため工場労働者を最大で20％削減へ – GIGAZINE

大手アダルト動画サイトのPornhubがフランスから撤退して30分でVPNサービスの登録者数が1000％増加、TikTokのアメリカ撤退時より凄まじい数字

半導体業界は前例のない「ギガサイクル」に突入、AIの大規模な発展によりコンピューティング・メモリ・ネットワーク・ストレージの経済性が同時に高まる – GIGAZINE

保守派の人々は「滑り坂論法」に陥りやすいという研究結果

乳幼児の脳スキャンにより「人間が記憶を形成し始めるタイミング」が明らかに

無料＆広告なしで音声をテキストに変換できるアプリ「Notely Voice」レビュー、ネット接続不要でスマホのみでWhisperを実行して長文メモを簡単に作れる – GIGAZINE