Googleが「Gemini 3.1 Flash Live」発表、リアルタイム対話向けに遅延を低減した音声モデルでSynthIDによる電子透かしも採用、音声とカメラを使う「検索Live」も日本を含む世界各地で提供開始 – GIGAZINE


AI


GoogleがGeminiのリアルタイム音声生成AIモデル「Gemini 3.1 Flash Live」を2026年3月26日に発表しました。Googleは「これまでで最高品質のオーディオおよび音声モデルです。さらに日本を含むAIモードが利用可能なすべての言語と地域において、音声とカメラの両方を検索できる「検索Live」をグローバルに展開することも明らかにされました。

Gemini 3.1 Flash Live: Google’s latest AI audio model
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/

Google Search Live expands globally
https://blog.google/products-and-platforms/products/search/search-live-global-expansion/

Gemini 3.1 Flash Liveは記事作成時点で、検索LiveとGemini Libeを通じて誰でも利用可能。また、開発者はGoogle AI StudioのGemini Live APIをプレビューで利用できるほか、企業はGemini Enterprise for Customer Experienceを通じて利用することも可能です。

GoogleはGemini 3.1 Flash Liveについて、「全体的な品質が向上し、開発者や企業が複雑なタスクを大規模に実行できる音声ファーストのエージェントを構築する際に、より信頼性の高いものとなった」と評価しています。

さまざまな制約条件の下で複数ステップの関数呼び出しを捉えるベンチマークであるComplexFuncBench Audioでは、以前のモデルであるGemini 2.5 Flash Native Audio 12-2025と比較して90.8%というスコアを獲得し、トップの成績を収めたとのこと。


音声入力からの論理的思考や判断能力を測定するBig Bench Audioの結果は以下の通り。Gemini 3.1 Flash Live(思考モード:High)は95.9%のスコアで、Gemini 2.5 Flash Native Audio 12-2025(思考モード:High)から大きく向上。また、Gemini 3.1 Flash Liveを思考モードをMinimal(最小)に設定すると70.5%でした。


Scale AIのAudio MultiChallengeにおいて、Gemini 3.1 Flash Liveは「思考」機能をオンにした状態で36.1%のスコアを獲得し、トップに立っています。このベンチマークは、実際の音声にありがちな言いよどみや中断の中で、複雑な指示に従う能力や長期的な推論能力を具体的にテストするものです。


Googleによれば、Gemini 3.1 Flash Liveは音色の理解能力が向上し、より自然な対話を実現しているとのこと。Gemini Enterprise for Customer Experienceでは、Gemini 3.1 Flash Liveは2.5 Flash Native Audioよりも音の高さやペースといった音響的なニュアンスをより効果的に認識し、ユーザーの不満や混乱といった感情表現に対して、より動的に反応を調整する能力も向上しているそうです。


Gemini Liveと検索LiveではGemini 3.1 Flash Liveによって、簡単な日常的な質問をする場合でも、より複雑な会話をする場合でも、より自然な応答が得られるようになったとのこと。特にGemini Liveでは内部にモデルを搭載しているため、従来モデルに比べて応答速度が向上し、会話の流れを2倍長く追跡できるようになり、長時間のブレインストーミングでも思考の流れを途切れさせることなく進めることができるとGoogleはアピールしました。

また、これまでアメリカとインドでのみ提供されていた検索Liveが、日本を含めた「AIモードが利用可能なすべての言語と地域」で提供されました。Search Liveを利用するには、AndroidまたはiOSのGoogleアプリを開き、検索バーの下にあるLiveアイコンをタップするだけでOKです。

検索 Live、グローバル展開を開始 – YouTube


なおGoogleによれば、3.1 Flash Liveで生成されるすべての音声には、SynthIDによる電子透かしが入っているとのこと。この目に見えない電子透かしは音声出力に直接埋め込まれており、AI生成コンテンツを確実に検出して誤情報の拡散を防ぐのに役立つとGoogleは述べています。

この記事のタイトルとURLをコピーする




ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事