NVIDIAが海賊版サイト「Anna’s Archive」から500TBのデータ提供を受ける約束をしていたことが判明 – GIGAZINE


メモ


NVIDIAをめぐる集団訴訟で示された裁判資料により、NVIDIAがAIのトレーニングを加速させるために、海賊版サイトで「人類史上最大規模のシャドウライブラリ」を自称するAnna’s Archiveと協力体制を取っていたことが明らかになりました。

‘NVIDIA Contacted Anna’s Archive to Secure Access to Millions of Pirated Books’ * TorrentFreak
https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/


NVIDIAは海賊版サイト「Bibliotik」から取得された海賊版書籍を含むデータセット「Book3」でAIのトレーニングを行っていたとして、2024年に複数の書籍の著者から集団訴訟を起こされています。

NVIDIAは「書籍はAIモデルにとって確率的相関関係にすぎず、フェアユースである」と主張しましたが、原告側は修正訴状を提出し、「シャドウライブラリ」に関する申し立てを追加しました。

修正訴状で、原告は「競争のプレッシャーからNVIDIAは著作権侵害に走った」と述べ、NVIDIAのデータ戦略チームのメンバーがAnna’s Archiveに接触していたことを指摘しています。

修正訴状によれば、Anna’s ArchiveはNVIDIAから事前トレーニングでデータを利用することについて相談を受け、高速アクセスなら数万ドル(数百万円)が必要だと要求したとのこと。

NVIDIAがさらに接触を続けると、Anna’s Archiveは書籍が違法に取得・管理しているものであると警告した上で、NVIDIAの幹部に対して話を進める社内許可を取っているかを確認。NVIDIAの幹部は警告を受けたあと、つまり海賊版書籍であることを理解しながら許可を出し、Anna’s Archiveからアクセスを提供してもらったそうです。

なお、Anna’s Archiveは500TB相当のデータへのアクセス提供を約束したとのことですが、NVIDIAがアクセスに対して対価を支払ったかどうかは訴状では言及されていません。

原告によると、NVIDIAはデータをトレーニングに使用するにとどまらず、顧客がBook3の海賊版書籍データを含む「The Pile」と呼ばれるデータセットを自動的にダウンロードできるようにスクリプトやツールを配布していたとのことです。

著作権侵害の話題に詳しいニュースサイト・TorrentFreakは、大手テック企業とAnna’s Archiveとのやり取りが公になったのは初の事例であり、これによってAnna’s Archiveの知名度がさらに高まることになると見解を述べています。

この記事のタイトルとURLをコピーする


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事