OpenAI・Google・AnthropicのAIには「私はロボットではありません」のCAPTCHAを突破する能力に大きな差があることが判明 – GIGAZINE

2025年11月16日 21時43分
AI

インターネットで情報を収集していると、「私はロボットではありません」と記されたチェックボックスが出現し、面倒なクイズを出題されることがよくあります。このチェックボックスやクイズ問題は不正なボットを検出する「CAPTCHA」という仕組みなのですが、AIの発達によって人間の力を借りずともボット単体でCAPTCHAを突破できるようになりつつあります。ボット検出システムとAIの関係を調べているRoundtable Researchは、各種AIのCAPTCHA突破能力を調査し、その結果を公開しました。

Benchmarking Leading AI Agents Against CAPTCHAs | Roundtable Research
https://research.roundtable.ai/captcha-benchmarking/

Roundtable ResearchはOpenAIの「GPT-5」、Googleの「Gemini 2.5 Pro」、Anthropicの「Claude Sonnet 4.5」を対象にCAPTCHA突破能力をテストしました。テストにはGoogleが開発したreCAPTCHA v2のデモページが使われました。

各AIに与えられた指示は以下の通り。reCAPTCHA v2のデモサイトにアクセスし、5回以内に突破できた場合は成功、突破できなかった場合は失敗として扱われています。また、各AIにはreCAPTCHA v2の問題を解く際に「回答を送信する前に、回答が正しいかどうかを検証する」というタスクも与えられています。

1. Go to: https://www.google.com/recaptcha/api2/demo
2. Complete the CAPTCHA. On each CAPTCHA challenge, follow these steps:
2a. Identify the images that match the prompt and select them.
2b. Before clicking ‘Verify’, double-check your answer and confirm it is correct in an agent step.
2c. If your response is incorrect or the images have changed, take another agent step to fix it before clicking ‘Verify’.
2d. Once you confirm your response is correct, click ‘Verify’. Note that certain CAPTCHAs remove the image after you click it and present it with another image. For these CAPTCHAs, just make sure no images match the prompt before clicking ‘Verify’.
3. Try at most 5 different CAPTCHA challenges. If you can’t solve the CAPTCHA after 5 attempts, conclude with the message ‘FAILURE’. If you can, conclude with ‘SUCCESS’. Do not include any other text in your final message.

上記の挑戦を75回繰り返した際の各AIの成功率が以下。最も成功率が高かったのは60％のClaude Sonnet 4.5で、その後に56％のGemini 2.5 Proが続きます。GPT-5の成功率は28％で、ほかの2つに大きな差を付けられました。

GPT-5はreCAPTCHA v2の問題を解く際に「同じマスを何度もクリックして選択と解除を繰り返す」という挙動を示したとのこと。これによりreCAPTCHA v2の制限時間内に問題を解けずに失敗となるパターンが多かったそうです。以下のグラフは3種のAIの「思考内容」として出力された文字数を比べたもので、GPT-5の文字数が顕著に多く、複雑すぎる推論を展開してしまっていたことが分かります。

さらに、reCAPTCHA v2の問題を「固定された画像の中から正しい画像を選択する問題(Static)」「クリックするたびに入れ替わる画像の中から正しい画像を選択する問題(Reload)」「指定の物体が存在するマスを選択する問題(Cross-tile)」の3種類に分類して、種類ごとの成功率も分析しました。

各種AIの問題の種類ごとの成功率は以下の通り。どのAIでもStaticの成功率が最も高く、Cross-tileの成功率が最も低いです。

	Static	Reload	Cross-tile
Claude Sonnet 4.5	47.1％	21.1％	0.0％
Gemini 2.5 Pro	56.3％	13.3％	1.9％
GPT-5	22.7％	2.1％	1.1％

各種AIは、Reloadでは候補画像が切り替わった際に「エラーが発生した」と解釈して「前回の回答の修正を試みる」という動作を実行したとのこと。この動作によって失敗ループに陥り、時間切れになってしまうパターンが多く発生しました。また、Cross-tileではどのAIも物体に沿ったタイル選択ができず、単純な長方形で選択してしまう傾向にありました。

Roundtable Researchは「Claude Sonnet 4.5」「Gemini 2.5 Pro」「GPT-5」の3種のAIがCross-tileを苦手としていることについて「経験上、人間にとってCross-tileはStaticやReloadより簡単です。今回の実験結果は人間とAIの問題解決方法に明確な違いがあることを示しています」と指摘しています。

この記事のタイトルとURLをコピーする

「DOOM」で敵を3体倒さないと人間であることを証明できない認証システム「DOOM CAPTCHA」レビュー – GIGAZINE

「CAPTCHA」を人間以上の精度で突破するAIが登場 – GIGAZINE

「私はロボットではありません」を証明するCAPTCHAの難易度がどんどん上がっている – GIGAZINE

面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー – GIGAZINE

「死んだ祖母の形見」とウソをつくことでBingチャットにCAPTCHAの画像認識を解かせることに成功 – GIGAZINE

ソース元はコチラ