AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す

AIの能力向上に伴って、AIが「ユーザーから隠れて命令とは別の攻撃的なタスクを実行する」という行為に及ぶリスクも増しています。そんなAIによる妨害工作(サボタージュ)のリスクを測定するシステム「SHADE-Arena」をAI開発企業のAnthropicが発表し、同時に各種AIモデルを対象とした妨害工作能力テストの結果も公開しました。

続きを読む…


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事