Googleが次世代推論AIモデル「Gemini 2.5」発表、推論とコーディング性能が大きく向上 – GIGAZINE

Googleが次世代推論AI「Gemini 2.5」シリーズを発表し、その第1弾としてマルチモーダルモデルであるGemini 2.5 Pro Experimentalをリリースすることを明らかにしました。Googleは、強力な推論機能とコード機能を備えたGemini 2.5 Pro Experimentalが「最もインテリジェントなモデル」であるとアピールしています。

Gemini 2.5: Our newest Gemini model with thinking
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

従来の大規模言語モデルは数学的な問題やコーディングなど、論理力を問われる複雑なタスクを苦手としていました。しかし、推論モデルは答えを出す前に追加の計算能力と時間をかけて事実確認と問題の推論を行うことで、数学的な問題やコーディングなどでも高い精度の出力を可能とします。

OpenAIが2024年9月に初のAI推論モデルとなる「OpenAI o1」を発表して以来、AI企業は自社のモデルでOpenAI o1に匹敵するかそれを上回る推論能力を獲得しようと競い合ってきました。記事作成時点でOpenAI以外にもAnthropicやxAI、DeepSeekなどが推論モデルを開発しています。

Googleもこれまでに推論モデルを開発しており、2024年12月に初の推論モデルとなる「Gemini 2.0 Flash Thinking」をリリースしました。これは、マルチモーダルモデルであるGemini 2.0 Flashに「思考プロセスを生成する機能」を追加したモデルです。

Googleが思考プロセスを導入して推論を強化したAIモデル「Gemini 2.0 Flash Thinking」を公開、各種テストでOpenAIのo1-previewやGPT-4oを超える性能 – GIGAZINE

今回発表されたGemini 2.5シリーズは、このGemini 2.0 Flash Thinkingよりも推論能力とコーディング能力が強化されているとGoogleは述べています。

Googleが公開しているベンチマーク結果をまとめた図が以下。「Reasoning＆knowledge(推論と知識)」「Science(科学)」「Mathematics(数学)」で、OpenAI o3-miniやOpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta、DeepSeek-R1と比較してトップクラスのスコアを記録しました。

また、Googleによると、コード編集を測定する評価ツール「Aider Polyglot」において、Gemini 2.5 Pro Experimentalは 68.6% のスコアを獲得し、OpenAI o3-miniやClaude 3.7 Sonnet、DeepSeek-R1のスコアを上回ったとのこと。さらに、Gemini 2.5 Pro ExperimentalはAI向けのソフトウェア開発ベンチマーク「SWE-Bench Verified」で63.8％のスコアを獲得し、OpenAI o3-miniやDeepSeek-R1のスコアを上回ったとのこと。ただし、70.3％のスコアを示したAnthropicのClaude 3.7 Sonnetの方がGemini 2.5 Pro Experimentalよりもやや上回る結果となりました。

Googleは、実際にGemini 2.5 Pro Experimentalに1行のプロンプトを入力して簡単なゲームを生成させる様子を、以下のムービーで公開しています。

Gemini 2.5: Create your own dinosaur game from a single line prompt – YouTube

Gemini 2.5 Proは記事作成時点で入力トークン100万・出力トークン6万4000で、開発者プラットフォームであるGoogle AI Studioで利用可能になるほか、月額2900円の有料プラン「Gemini Advanced」加入者であればGeminiアプリでも利用可能になるとのこと。APIの利用料については記事作成時点では不明で、近日中に詳細を発表するとGoogleは述べています。

さまざまなAIを検証している開発者のサイモン・ウィリソン氏は独自に検証を行った結果、「試用したばかりでまだ少しかじった程度」と前置きしながらも、Gemini 2.5 Proの文章解釈・画像認識・音声認識の精度が高かったと評価し、「Gemini 2.5 Proは非常に強力な新モデルです」と自身のブログで論じました。

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

政府機関でも適切なチームと文化があれば大規模な産業技術を構築できることを示した「リッコーヴァーの教訓」とは？ - GIGAZINE 前の記事 Napsterが仮想現実企業のInfinite Realityに約310億円で買収される - GIGAZINE 次の記事

関連記事

著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用

平沢進の配信映像コンテンツ「亜種音TV」最終回公開、販売自体も2025年8月末で終了 – GIGAZINE

あらゆるウェブサイトの見た目をAIに頼んでカスタムできる拡張機能「Tweeks」を使ってみた

デヴィッド・リンチ監督が35年以上暮らした邸宅の写真を不動産業者が公開 – GIGAZINE

あの頃のTwitterっぽいSNS「ヒウィッヒヒー」登場、匿名＆登録不要でつぶやける

共通脆弱性識別子(CVE)プログラム存続のため「CVE Foundation」が設立、アメリカ政府からの資金提供停止後即立ち上げ – GIGAZINE