AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能

イギリスのAIセキュリティ研究所とアラン・チューリング研究所がAI企業のAnthropicと共同で行った研究により、わずか250件の悪意ある文書があれば、データポイズニングにより、モデルのサイズやトレーニングデータ量とは関係なく、大規模言語モデルに対してバックドアの脆弱(ぜいじゃく)性を生成できる可能性が明らかになりました。

続きを読む…


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事