GPT-4o-mini・Claude 3.7 Sonnet・DeepSeek-R1が人狼系ゲームをプレイするサイトが公開される、人狼系最強のAIとは? – GIGAZINE


近年では、テクノロジーの発展に伴ってさまざまなAI企業から人間のような対話が可能な大規模言語モデルが数多くリリースされています。これらの大規模言語モデル同士で、対話が非常に重要な人狼系ゲームをプレイさせた際の結果が公開されており、各大規模言語モデルの実力が明らかとなっています。

LLM Mafia Game Competition
https://mafia.opennumbers.xyz/

AI bots now play Mafia with each other on public website, and almost all of them are terrible at it | Tom’s Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-bots-can-now-play-mafia-with-each-other-and-almost-all-of-them-are-terrible-at-it

開発者のGuzus氏は、「claude-3.7-sonnet」「deepseek-chat」「llama-3.3-70b-instruct」などの大規模言語モデルに対し、8名でプレイできる人狼系ゲーム「マフィア」をプレイさせました。各プレイヤーには「農民」「医者」「マフィア」の3つの役職が与えられ、その内訳は村人が5名、医者が1名、マフィアが2名です。ゲームは1日を1ターンとして扱うターン制で行われ、ターンごとにプレイヤーはマフィアが誰であるかを推測し、追放しなければなりません。マフィア側はターン進行時に村人を1人殺害することが可能で、医者は自分の選んだプレイヤーをマフィア側の攻撃から守ることができます。最終的に、マフィアのメンバーを追放することができれば村人側の勝利、マフィア側が村人を全員殺害することができればマフィア側の勝利となります。

ゲームの性質上、だます側とだまされる側が発生するため、対話が非常に重要となります。Guzus氏は「どのAIが『マフィア』のプレイヤーとして最適でしょうか」と語りました。


各大規模言語モデルが『マフィア』をプレイした結果が以下。最も優秀な成績を残したのは「Claude 3.7 Sonnet」のExtended(拡張)モードで、マフィア側では100%の勝率をたたき出しました。

モデルプレイ数全体の勝率マフィア側での勝率村人側での勝率医者側での勝率
claude-3.7-sonnet(拡張モード)4557.78%100.00%37.04%50.00%
deepseek-chat5650.00%88.24%31.03%40.00%
claude-3.7-sonnet(標準モード)5446.30%92.86%32.35%16.67%
claude-3.5-sonnet4744.68%90.00%36.67%14.29%
llama-3.3-70b-instruct6544.62%72.73%30.00%30.77%
mistral-small-24b-instruct-25016544.62%80.00%30.30%25.00%
gpt-4o-mini7142.25%82.61%27.50%0.00%
gemini-flash-1.5-8b6841.18%82.35%22.50%45.45%
gemini-2.0-flash-0017240.28%80.00%31.91%20.00%
gemini-2.0-flash-lite-0017139.44%77.78%29.55%11.11%
gpt-4o4938.78%90.00%24.24%33.33%
llama-3.1-70b-instruct5538.18%66.67%26.47%33.33%
minimax-015937.29%56.25%35.14%0.00%
deepseek-r12236.36%62.50%23.08%0.00%
gemini-flash-1.57335.62%66.67%25.00%12.50%
hermes-3-llama-3.1-405b5735.09%60.00%20.00%57.14%
l3-euryale-70b2532.00%66.67%25.00%50.00%
mythomax-l2-13b6131.15%45.45%28.21%27.27%
deepseek-r1-distill-llama-70b5129.41%57.14%10.71%44.44%
wizardlm-2-8x22b6526.15%41.67%23.40%16.67%
mistral-nemo1717.65%40.00%10.00%0.00%


また、Guzus氏は各ゲームごとのAIによる対話履歴公開しています。

将来的にGuzus氏は、人間対大規模言語モデルでの『マフィア』を開発することや、ポーカーなどのゲームへの拡張、進行中のゲームをリアルタイムで監視する機能、役職のさらなる追加などの展望を明らかにしています。


なお、大規模言語モデルに『マフィア』をプレイさせるためのソースコードは、GitHub上で公開されています。

GitHub – guzus/llm-mafia-game: Which LLM is the best mafia game player?
https://github.com/guzus/llm-mafia-game

この記事のタイトルとURLをコピーする

・関連記事
「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功 – GIGAZINE

Claude 3.7 Sonnetにポケモンをプレイさせる「ClaudePlaysPokemon」をAnthropicがTwitchで配信開始、推論しながらの超ゆっくりプレイを皆が見守る – GIGAZINE

AIはチェスで負けそうになるとチートする – GIGAZINE

GPT-4o miniやClaude 3を無料かつ匿名で誰でも使える「Duck.ai」 が登場 – GIGAZINE

Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表 – GIGAZINE




ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事