
Googleが合成音声AI「Gemini 3.1 Flash TTS」を2026年4月15日にリリースしました。Gemini 3.1 Flash TTSは日本語を70以上の言語に対応しており、感情を制御しつつ高品質な音声を出力することができます。無料で使えるデモアプリも用意されていたので実際に使ってみました。
Gemini 3.1 Flash TTS: New text-to-speech AI model
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
Gemini 3.1 Flash TTS(テキスト読み上げ)プレビュー | Gemini API | Google AI for Developers
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview?hl=ja
Gemini 3.1 Flash TTSはテキストを入力して音声を出力できる音声合成AIです。日本語を含む70以上の言語に対応しており、第三者機関のArtificial Analysisが実行したテストでは業界最高クラスの品質で音声を合成できることが確認されています。
以下の図はArtificial Analysisが検証した各種音声合成AIのコストパフォーマンスを示したもので、横軸がAPI利用価格、縦軸が品質スコアを示しています。Gemini 3.1 Flash TTSが安価かつ高性能なモデルであることがよく分かります。
Gemini 3.1 Flash TTSを使える無料デモが公開されていたので、実際に音声を合成してみます。まず、以下のリンクをクリックしてデモサイトにアクセスします。
generate-speech | Google AI Studio
https://aistudio.google.com/generate-speech
赤枠で囲った「Turn text into natural-sounding speech」と記された部分をクリック。
プロンプト入力画面が表示されたら上から順に「シーン」「文脈」「しゃべらせる内容」を入力して右下の実行ボタンをクリックします。
数秒で音声が合成され、画面下部に再生ボタンとシークバーが表示されました。
以下の動画を再生すると出力された音声を確認できます。特に指定せずとも感情や抑揚を再現した高品質な音声が合成されました。
Googleの音声合成AIでライブ配信者っぽい音声データを作成してみた – YouTube

Gemini 3.1 Flash TTSでは「音声タグ」を用いて感情を指定することができます。音声タグは「[amazed]」「[crying]」といったように英語で指定すればOK。使用可能なタグは特に定まっておらず、英語で感情を記せば大体通るそうです。
実際に「[whispers](ささやき)」「[laughs](笑い)」「[shouting](叫び)」という音声タグを追加して音声を合成してみます。
合成結果は以下の通り。指示に忠実な音声が出力されました。
Googleの音声合成AIでライブ配信者っぽい音声データを作成してみた【感情制御版】 – YouTube

Gemini 3.1 Flash TTSで生成した音声データにはAI生成コンテンツであることを示すSynthIDが埋め込まれます。また、Gemini 3.1 Flash TTSの仕様を記したモデルカードが以下のリンク先で公開されています。
Gemini 3.1 Flash Audio (Flash Live, TTS) – Model Card — Google DeepMind
https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。





