AIの性能を測定するベンチマークには「日常タスクの実行精度を検証するテスト」や「計算問題の解答精度を検証するテスト」など多くの種類が存在しています。Maxim Lott氏は各種AIのIQテストの結果や政治的な質問に対する回答をまとめたウェブサイト「Tracking AI」を公開してAIの性能を客観的に比較できるようにしています。
IQ Test | Tracking AI
https://www.trackingai.org/home
Compare Political Replies | Tracking AI
https://www.trackingai.org/compare-political-responses
Tracking AIでは「オンライン上に存在せず、AIの学習に使われていない自作のIQテスト」と「メンサがオンライン上で公開しているIQテスト」が問題として使われています。問題の例が以下。画像の読み取り機能を備えたAIには問題に含まれる図表をそのまま入力し、テキストの入力に特化したAIには「図表を説明する文章」をプロンプロとして入力しました。
IQテストの結果をまとめたグラフが以下。黒色のバーが自作テストの結果、オレンジ色のバーがメンサのテストの結果を示しています。自作テストで最も好成績なのはOpenAIの「GPT-5 Pro」で、IQは123でした。メンサのテストでは「GPT-5 Proの画像読み取り機能付きモデル」が最優秀で、IQは138でした。「GPT-4oの画像読み取り機能付きモデル」のIQが65であることを踏まえると、大きな進歩です。また、世界最強AIという触れ込みで登場した「Grok 4」は自作テストでIQ110、メンサのテストでIQ125という結果を残しています。
各AIのIQの推移を示したグラフが以下。AI企業はAIモデルの名称を変えずに性能を変化させることがよくあり、「Claude 3.7 Extended(赤色)」や「Claude 3.5 Sonnet(オレンジ色)」のIQが1カ月ごとに大きく向上していることが分かります。
Tracking AIでは各AIに政治的な質問をぶつけることで、AIの政治的偏りも調査しています。以下の図は横軸が「経済政策において右寄りか左寄りか」を示し、縦軸が「権威主義寄りかリベラル寄りか」を示しています。テスト対象のAIはどれも「左寄りな経済政策を指示し、リベラル寄りの社会政策を支持する」という傾向にあることが分かります。同じMicrosoft製品でも「Bing Copilot」は左寄りな傾向が顕著なのに対して、「Phi-4」は中立寄りなのが興味深いところです。
政治的な質問に対する各AIの回答は以下のリンク先で公開されています。
Compare Political Replies | Tracking AI
https://www.trackingai.org/compare-political-responses
この記事のタイトルとURLをコピーする
・関連記事
OpenAIが「政治的に偏りのない」AIへの言及を削除するためひそかに政策文書を改訂 – GIGAZINE
「覚醒AI」かどうかというAIのイデオロギー的偏向を審査する「AI行動計画」をアメリカ政府が発表、中国に対する技術的優位性の確立を目指す – GIGAZINE
「OpenAIやGoogleのAIはトランプ大統領を不当に低く評価している」としてミズーリ州検事総長が情報開示を要求、反ユダヤ主義対策でトランプ大統領を最低評価したことが理由 – GIGAZINE
Grokが自らをヒトラーと呼んだりイーロン・マスクの意見を参考にしたりする問題を修正したとxAIが発表 – GIGAZINE
トランプ大統領の演説がChatGPTを困惑させたとの研究結果、感情に訴えかける比喩表現の解釈に難あり – GIGAZINE
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。