AIを単一のスコアで評価する「AI IQ」が登場、各ベンチマーク結果をもとにスコアを算出 – GIGAZINE

2026年05月14日 20時00分
AI

AIモデルの性能比較では、複数のベンチマークの点数が並ぶランキング表を読む必要があり「結局どのモデルがどれくらい賢いのか」が分かりにくい場面があります。エンジニアで起業家のライアン・シェイ氏は、最先端AIモデルを人間のIQスケールに換算して表示するプロジェクト「AI IQ」を2026年5月12日に発表しました。

AI IQ — Intelligently Measuring AI Intelligence
https://www.aiiq.org/

Today I’m launching AI IQ — frontier AI models, scored on the human IQ scale.
Instead of endless leaderboard tables, AI IQ shows:
• Where models land on the IQ bell curve
• How frontier IQ is changing over time
• How models compare on IQ and EQ
• What intelligence costs in… pic.twitter.com/gylF4YRPv4
— Ryan Shea (@ryaneshea) 2026年5月12日

AI IQの狙いは、モデルごとの細かなベンチマーク点数を眺める代わりに、「AIモデルがIQのベルカーブ上でどこに位置するのか」「最先端AIモデルの知能スコアが時間とともにどう変化しているのか」「IQと感情知能であるEQを並べるとどう見えるのか」「実際に使う場合の知能あたりのコストはどれくらいなのか」を可視化することです。シェイ氏はGPT-5.5、Claude Opus 4.7、Gemini 3.1、Grok 4.3、Kimi K2.6、Qwen3.6、DeepSeek V4、Muse SparkなどのモデルをAI IQの図にまとめました。

AI IQの図はこんな感じ。記事作成時点では「gpt-5.5」が最高スコアとなる右端に位置しており、「gpt-5.4」「gemini-3.1-pro」「opus-4.7」と続いていました。

なお、AI IQの「IQ」は人間向けのIQテストをAIモデルにそのまま受けさせた結果ではなく、抽象推論、数学的推論、プログラミング推論、学術的推論という4分野の公開ベンチマークのスコアを「推定IQ」に変換し、4つの平均値から総合IQを算出したものとのこと。

グラフ上で各モデルにカーソルをあわせるとどのように「IQ」スコアが算出されたのかという内訳を確認できます。算出にはARC-AGI-1、ARC-AGI-2、FrontierMath T1～3、FrontierMath T4、AIME、ProofBench、Terminal-Bench 2.0、SWE-bench、SciCode、Humanity’s Last Exam、CritPt、GPQA Diamondという合計12種類のベンチマークが使われています。暗記や訓練データへの混入で高得点を取りやすいベンチマークについてはスコアの上限を圧縮し、特定のベンチマークだけで総合IQが不自然に上がらないように調整しているとのこと。データが欠けている場合でも、欠損を控えめに補完する仕組みが採用されています。

下の欄で表示するモデルをフィルターすることもできます。例えば「xAI」でフィルターすると、xAIが開発したGrokシリーズのモデルだけが表示されてGrokシリーズの進化を一目で確認できます。

また、AIのコスト面を比較する「IQ vs Effective Cost」というグラフもあります。この「実効コスト」は、200万入力トークンと100万出力トークンの作業を想定したトークン価格に、モデルごとのトークン使用効率を掛け合わせた指標で、料金表上のトークン単価だけでなく、同じ作業をこなすためにモデルがどれだけトークンを使うかまで含めた実際の利用コストに近い数値とのこと。同等のIQスコアでも、GPT系やOpus系のモデルに比べてGeminiのコストの低さが際立っています。

IQスコアが時系列でどのように推移してきたのかを確認できるグラフもありました。

OpenAI、Anthropic、Googleという3社のモデルに絞ってみるとこんな感じ。最高スコアを目指してデッドヒートしている様子がうかがえます。

一方で、AIモデルの複雑な能力を単一のIQスコアにまとめる手法には批判も出ています。VentureBeatは「AIの能力は分野ごとの得意不得意が大きく、単一スコアに集約すると精密に見えるだけで実態を誤解させる可能性がある」という批判がX上で出ていると報じました。AI IQはベンチマーク表を読みやすくする試みである一方、推定IQという数値を「AIモデルの知能そのもの」と受け取るのではなく、複数のベンチマークを比較しやすくするための変換値として扱う必要があるとの指摘もあります。

シェイ氏は、最先端AIモデルはばらばらのベンチマーク表や発売直後の宣伝文句だけでは理解しづらくなっており、AI IQによって「どのAIモデルが実際に使う価値があるのか」を判断しやすくしたいと述べました。

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

なぜエジプトのミイラに古代ギリシアの叙事詩「イーリアス」のパピルスが詰め込まれていたのか？ - GIGAZINE 前の記事実はアメリカでは無料で「.city.state.us」ドメインが取得できる次の記事

関連記事

トランプ大統領就任以来アメリカ政府は理数工系や医療分野の博士号取得者を1万人以上失った – GIGAZINE

11年間迷子になった愛犬のマイクロチップ情報を更新し続けついに再会に成功した人物

Googleが地熱エネルギー最大150MWを自社データセンターに供給予定 – GIGAZINE

X(旧Twitter)のチャットボット・Grokは反証済みの主張を繰り返すため医療分野などの重要な局面で信頼に欠けるとの指摘、「真実を探求するチャットボット」を開発するというイーロン・マスクの目的にも反する – GIGAZINE

トランプ大統領が「Anthropicの左翼狂信者がアメリカ軍の制御を試みた」と主張し関係断絶を指示、ヘグセス国防長官はAnthropicを「サプライチェーンリスク」に指定へ – GIGAZINE

OpenAIが4200億円超でAIコーディングツール開発スタートアップの「Windsurf」を買収交渉中との報道 – GIGAZINE