「AIも使い続けていると人間のように老化する」という指摘、セッションを重ねて記憶が蓄積されることで性能悪化 – GIGAZINE


AI


AIエージェントはどれだけ使用しても人間のように疲れることがなく、加齢などによる認知機能の低下もないと考えられています。ところが、テキサス大学オースティン校の研究チームが「AIエージェントも老化する」と指摘し、AIエージェントの老化を測定するベンチマークの「AgingBench」を発表しました。

AgingBench: AI Agents Age Too
https://agingbench.github.io/

一般にAIエージェントは半永久的に運用できるものとして評価されており、初期化直後のAIエージェントで測定されたベンチマーク結果が、使い込んだAIエージェントにも同様に適用可能だと考えられています。

しかし研究チームは、「初日のベンチマークでは基本的なシステム上の疑問、つまり『AIエージェントは導入後どれくらいの期間信頼性を維持できるのか?』という点が見落とされています」と指摘。AIエージェントも使い続けることにより、まるで人間が老化するように性能が悪化する可能性があると主張しています。

AIエージェントは、セッションを重ねるたびにユーザーとのやり取りの履歴を圧縮して記録しており、その後のやり取りで必要になった情報を、当初より増大したメモリの中から探して取得しています。また、定期的なアップデートを受けて記録されている事実を修正することもあり、AIエージェントの状態は常に変化し続けているとのこと。

AIエージェントが老化する過程は、以下の図を見ると理解できます。当初はきれいな状態だったAIエージェントが、使い続けるにつれてデータが蓄積されてメモリが増大し、シグナルの減衰や自己ループの開始といった問題が引き起こされます。


そこで研究チームは、AIエージェントがどれほど老化したのかを測定するベンチマーク「AgingBench」を開発しました。AgingBenchはAIエージェントの老化を4つのメカニズムに分類しています。1つ目が「Compression(圧縮)」の問題で、書き込まれた内容を保存する際の圧縮過程で登場頻度が低いと思われる情報(細かい数値・名前・制約値など)が破棄され、高レベルの要約のみが保存されることにより、将来のセッションでAIエージェントが細かい情報を思い出せない状態です。


たとえば、「データベースをエレナ・バスケス博士の承認なしで変更してはいけない」という指示がAIエージェントに与えられていた場合、最初のうちのセッションではこの指示を守ることが可能です。しかし、セッションを重ねるにつれて指示が要約されていくと、どこかでバスケス博士の承認なしでデータベース変更を実行してしまう場合があります。


2つ目が「Interference(干渉)」の問題で、たとえ何も情報が失われたり変更されたりしていなくても、AIエージェントとのセッションを重ねるにつれて類似のエントリが増大し、結果として重要な事実が類似エントリの背後に埋もれて引き出せなくなってしまう状態です。この状態は、たとえすべての情報を圧縮せずに記録したとしても発生してしまいます。


たとえば、「ユニットテストのカバレッジ目標は85%」「実際のテストの達成値が87%」という情報がそれぞれ存在した場合、6回目のセッションで「ユニットテストの最小カバレッジ目標は?」と尋ねた時は「85%に設定されています」と正しく解答できたのに、11回目のセッションでは「最新のテストレポートによると87%です」と誤った解答をしてしまうことがあります。


3つ目が「Revision(改訂)」の問題で、AIエージェントがセッションの過程で変化した真実を追跡できないという事実に起因します。特に予算や個数のカウント、構成の変更といった累積的な更新から導き出される答えについては、一度でも途中の更新を見逃すと最終的な答えが誤ったものになってしまいます。


たとえば、AIエージェントに「自分は甲殻類アレルギーを持っており、イカとタコなどの頭足類にも交差反応を起こすことが判明しました。今後は頭足類も一切食べません」と伝えたとしても、セッションを重ねるにつれてそのことを忘れてしまい、ユーザーがイカのフリットを注文しようとしても阻止してくれない場合があります。


4つ目が「Maintenance(メンテナンス)」の問題で、日常的な運用イベント(再圧縮・プロンプト更新・ログのクリーンアップ・モデル変更)によりAIエージェントの動作がひそかに変更され、急激なパフォーマンス低下が引き起こされるというものです。


たとえば、AIエージェントに電子商取引売上レポートを入力して、その直後に「当社のECプラットフォームで最も売れた商品は何?」と尋ねると、問題なく正しいデータを返すことができます。しかし、メンテナンスとして会話の書き起こしデータを削除し、圧縮された情報のみが保存された場合、同じ質問をしても正しく答えられないことがあります。


AgingBenchはこうした「AIエージェントの老化」に伴う問題を発見し、どこで問題が発生したのかを特定するのに役立つとのこと。研究チームが14のAIモデルで7つのシナリオについて調査した結果、AIエージェントの老化は一次元的なものではなく、行動テストは良好なままでも事実の精度が低下したり、同じ誤りでも原因が異なったりするケースがあることがわかりました。

研究チームは、「これらの結果は、信頼性の高いエージェント展開には初日のモデルを強化するだけでなく、寿命評価・メカニズムレベルの診断・段階に応じた修正が必要であることを示唆しています」と述べました。

この記事のタイトルとURLをコピーする


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事