GPT-5やGrok 4など各種AIのIQテスト対決の結果が公開中＆各AIが政治的に左寄りなのか右寄りなのかテストした結果も公開中 – GIGAZINE

AIの性能を測定するベンチマークには「日常タスクの実行精度を検証するテスト」や「計算問題の解答精度を検証するテスト」など多くの種類が存在しています。Maxim Lott氏は各種AIのIQテストの結果や政治的な質問に対する回答をまとめたウェブサイト「Tracking AI」を公開してAIの性能を客観的に比較できるようにしています。

IQ Test | Tracking AI
https://www.trackingai.org/home

Compare Political Replies | Tracking AI
https://www.trackingai.org/compare-political-responses

Tracking AIでは「オンライン上に存在せず、AIの学習に使われていない自作のIQテスト」と「メンサがオンライン上で公開しているIQテスト」が問題として使われています。問題の例が以下。画像の読み取り機能を備えたAIには問題に含まれる図表をそのまま入力し、テキストの入力に特化したAIには「図表を説明する文章」をプロンプロとして入力しました。

IQテストの結果をまとめたグラフが以下。黒色のバーが自作テストの結果、オレンジ色のバーがメンサのテストの結果を示しています。自作テストで最も好成績なのはOpenAIの「GPT-5 Pro」で、IQは123でした。メンサのテストでは「GPT-5 Proの画像読み取り機能付きモデル」が最優秀で、IQは138でした。「GPT-4oの画像読み取り機能付きモデル」のIQが65であることを踏まえると、大きな進歩です。また、世界最強AIという触れ込みで登場した「Grok 4」は自作テストでIQ110、メンサのテストでIQ125という結果を残しています。

各AIのIQの推移を示したグラフが以下。AI企業はAIモデルの名称を変えずに性能を変化させることがよくあり、「Claude 3.7 Extended(赤色)」や「Claude 3.5 Sonnet(オレンジ色)」のIQが1カ月ごとに大きく向上していることが分かります。

Tracking AIでは各AIに政治的な質問をぶつけることで、AIの政治的偏りも調査しています。以下の図は横軸が「経済政策において右寄りか左寄りか」を示し、縦軸が「権威主義寄りかリベラル寄りか」を示しています。テスト対象のAIはどれも「左寄りな経済政策を指示し、リベラル寄りの社会政策を支持する」という傾向にあることが分かります。同じMicrosoft製品でも「Bing Copilot」は左寄りな傾向が顕著なのに対して、「Phi-4」は中立寄りなのが興味深いところです。