5つの最先端AIでさまざまな主張のファクトチェックを行ったところ67%で意見が一致しないとの調査結果 – GIGAZINE


AI


Lenzはさまざまな主張について入力すると、複数のAIモデルによってその内容がファクトチェックされるというサービスです。そんなLenzが、実際にユーザーから寄せられた1000件の主張について調べたところ、なんと67%の割合で5つの最先端AIの意見が食い違ったと報告しました。

Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
https://lenz.io/research/llm-disagreement

Lenzはユーザーから最近寄せられた1000件の主張について、「GPT-5.4」「Claude Opus 4.7」「Gemini 3 Pro」「Gemini 3 Pro + Search(Gemini 3 ProにGoogle検索を組み合わせたモデル)」「Sonar Pro」の5つのモデルにファクトチェックさせました。評価は「真実/ほぼ真実/誤解を招く/虚偽」の4段階で、少なくとも1つのモデルの評価が他と異なっていた場合は「意見が食い違った」と見なされました。

今回チェックした主張のうち、特に各モデルの見解が分かれたものの一例がこれ。「ムティア・ムラリタラン氏(クリケットの指導者)は、インディアン・プレミアリーグ(プロクリケットリーグ)は純粋にビジネスであり、ロースコアの試合はスポンサーにとって退屈なので、平坦なピッチが用意されていると述べた」という有名人の発言に関する主張について、GPT-5.4は「真実」、Claude Opus 4.7は「ほぼ真実」、Gemini 3 Proは「虚偽」、Gemini 3 Pro + Searchは「誤解を招く」、Sonar Proは「誤解を招く」とバラバラの回答となりました。


また、「ポジティブな感情表現の少ない音楽を好む人は、知能が高い傾向がある」という心理学的なトピックに関する主張についても、GPT-5.4は「誤解を招く」、Claude Opus 4.7は「ほぼ真実」、Gemini 3 Proは「虚偽」、Gemini 3 Pro + Searchは「真実」、Sonar Proは「誤解を招く」と見解が分かれました。


「世界銀行のナイジェリアにおけるアクティブポートフォリオは、2025年時点で164億ドル(約2兆6100億円)を超えている」という公的なデータに関する主張でも、GPT-5.4は「ほぼ真実」、Claude Opus 4.7は「真実」、Gemini 3 Proは「虚偽」、Gemini 3 Pro + Searchは「誤解を招く」、Sonar Proは「誤解を招く」と割れています。


「ウォロディミル・ゼレンスキー氏(ウクライナ大統領)が2026年のノーベル平和賞にノミネートされた」という主張について、GPT-5.4は「虚偽」、Claude Opus 4.7は「ほぼ真実」、Gemini 3 Proは「虚偽」、Gemini 3 Pro + Searchは「真実」、Sonar Proは「真実」と回答。なお、実際にゼレンスキー氏は2026年度のノーベル平和賞にノミネートされています。


テストの結果、なんと1000件中672件(約67%)では最先端AIモデルの意見が一致せず、少なくとも1つのモデルが違う意見を持っていたか、まったく統一的な見解が得られないことが判明しました。

以下の表は、上から順に「5つのAIモデルすべてが同意した数」「5つ中1つが異なる見解を示した数」「5つ中2つが異なる見解を示した数」「意見が分かれて過半数を獲得した見解がなかった数」を示したもの。満場一致となったのは1000件のうち328件と、全体の3分の1程度に過ぎませんでした。また、モデルの意見が分かれてどの意見も過半数を獲得しなかったケースも132件と、全体の13%に達しました。


以下の表は、各モデルが「真実」「ほぼ真実」「誤解を招く」「虚偽」を表明した割合を示したもの。GPT-5.4やClaude Opus 4.7、Sonar Proは比較的「ほぼ真実」や「誤解を招く」といった中間的な意見を表明する割合が多い一方、Gemini 3 ProとGemini 3 Pro + Searchは「真実」または「虚偽」と言い切る割合が高い傾向がうかがえます。


Lenzは、今回のテストに用いられたすべての主張に人間がラベルを付け、そのラベルを正解データとして使用して最先端モデルを評価する研究に取り組んでいるとのこと。重要なのは意見の相違を明らかにすることであり、最先端AIモデルはどこで人間の評価から逸脱しているのか、どのような主張が見解の相違を引き起こすのかといった点が重要だと述べました。

この記事のタイトルとURLをコピーする


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事