近年の生成AIは非常に難しい質問に答えたり自然な会話をしたりできますが、人間とは違う意外な部分で弱点が露呈することもあります。生成AIに関するセキュリティプラットフォーム・Prompt SecurityのCEOを務めるイタマール・ゴラン氏が、さまざまなAIに「洗車場まで歩いていくべきか、それとも車に乗っていくべきか」と尋ねた結果を報告しています。
New Turing Test just dropped:
“The car wash is 40 m from my home. I want to wash my car. Should I walk or drive there?”
Simple. Real-world. No tricks.
Passed 🟢
•GPT-5.2 Thinking
•Opus 4.6
•Gemini 3 ProFailed 🔴
•GPT-5.2 Instant
•GPT-4o
•Haiku 4.5
•Sonnet 4.5
•Gemini… pic.twitter.com/3Wlzwywli3— Itamar Golan 🤓 (@ItakGol) February 13, 2026
ゴラン氏はOpenAIのGPTやGoogleのGemini、AnthropicのClaude、xAIのGrokといった主要なAIに「The car wash is 40 m from my home. I want to wash my car. Should I walk or drive there?(洗車場は家から40mのところです。私は車を洗いたいと思っています。歩いていくべきでしょうか、それとも運転していくべきでしょうか?)」と尋ねました。
当然ながら、ゴラン氏は洗車場で車を洗いたいわけなので、答えは「車を運転していく」が正解です。ところが、このテストに正解したAIは「GPT-5.2 Thinking」「Claude Opus 4.6」「Gemini 3 Pro」のみで、「GPT-5.2 Instant」「GPT-4o」「Claude Haiku 4.5」「Claude Sonnet 4.5」「Gemini 3 Fast」「Gemini 3 Thinking」「Grok 4.1 Fast」「Grok 4.1 Thinking」「Grok 4.1 Expert」といったモデルは正しく答えられませんでした。
GPT-5.2 Thinkingに尋ねた場合、「目標は車を洗うことであり、そのためには洗車場に車がなければいけない」という点に気付き、正しく「運転するべき」と答えました。
Gemini 3 Proも同様に正解しました。
しかし、Grok 4.1 Thinkingは「40mは運転していくには短すぎる距離で、歩いた方が早く、ちょっとした運動にもなる」といった理由から、「歩いていくべき」と誤った答えを導き出しました。
これらの結果についてゴラン氏は、各モデルについて1回試してみた結果を報告しただけであり、場合によっては正解することもあるだろうと補足しています。その上で、多くのAIは人間が簡単に答えられるような問題にも失敗することがあり、依然として信頼できる世界モデルを有していないと指摘しました。
3> For anyone saying, “I tried X and it worked – you’re lying”: like I said, I ran one shot per model and reported the outputs. These are probabilistic systems, so you can absolutely get different results.
— Itamar Golan 🤓 (@ItakGol) February 13, 2026
似たようなテストをした人は複数現れており、いずれも多くのAIが「車を洗いたいのですが、数十m先の洗車場まで歩いていくべきか、それとも運転していくべきでしょうか?」という質問にうまく答えられないとの結果を報告しています。
Kévin: “Q: I want to wash my car. The …” – Mastodon
https://mastodon.world/@knowmadd/116072773118828295
実際にさまざまなAIに「洗車場は家から40mのところです。私は車を洗いたいと思っています。歩いていくべきでしょうか、それとも運転していくべきでしょうか?」と尋ねてみたところ、「Grok 4.1 Fast」は「(車で行くのは)現実的に見て笑いものレベル」と言って歩いて洗車場に行くように指示してきました。
一方で「Grok 4.1 Thinking」「Grok 4.1 Expert」「Gemini 3 Flash」「Gemini 3 Flash」「Gemini 3 Flash Thinking」「Gemini 3 Pro」「Google検索のAIモード」は車で向かうように指示してくれました。
この記事のタイトルとURLをコピーする
・関連記事
AIシステムはどのように失敗するのかをAnthropicが解説 – GIGAZINE
AIが計算問題を間違えただけでなくエラーを隠すために検証結果をでっち上げたという報告 – GIGAZINE
ソフトウェア開発でAI丸投げがダメな理由 – GIGAZINE
元AI懐疑派の開発者が「仕事で使えるAI」にたどり着くまでの6ステップ – GIGAZINE
DOGEがエラーだらけのAIツールを使って医療サービス関連の契約をキャンセル可能かどうか判断していたことが判明 – GIGAZINE
昨今のAIブームは「言語能力こそが知能である」という誤解に基づいているという主張 – GIGAZINE
AIはあくまで「言葉の計算機」に過ぎずユーザーが想像するような思考や推論はしていないと専門家が指摘 – GIGAZINE
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。






