Gemini 2.5に、人間らしい表現力を持った音声生成機能「ネイティブオーディオ」が統合されました。Google AIスタジオなどで無料で試すことができます。
Gemini 2.5’s native audio capabilities
https://blog.google/technology/google-deepmind/gemini-2-5-native-audio/
新しく統合されたネイティブオーディオ機能には「リアルタイム音声ダイアログ」と「制御可能なテキスト読み上げ」の2種類があります。
◆リアルタイム音声ダイアログ
高品質で、豊かな表現力を持った音声読み上げ機能です。自然言語プロンプトを使って読み上げ時のアクセントを設定したり、音声のトーンを調整したりすることができます。日本語にも対応しています。
Google AI Studioの「Stream」タブでプロンプトを入力し、「Run」をクリックすると音声を生成できます。
実際にいくつかのプロンプトを入力して読み上げさせてみました。「ますかねぇ」といった語尾の抜け感が自然に表現できている一方で、関西弁のイントネーションはかなり不自然です。
Google AI Studioで「Gemini 2.5」のリアルタイム音声ダイアログを試してみた – YouTube

◆制御可能なテキスト読み上げ
生成される音声を自由にコントロールする機能です。短い文章から長編のナレーションまで、スタイル、トーン、感情表現、パフォーマンスを正確に指示し、自然言語プロンプトによってすべてをコントロールすることができると説明されています。
Google AI Studioの「Generate Media」タブで「Gemini speech generation」を選択すると利用できます。
「Raw structure」に読み上げさせたい文章を入力します。
入力する文章の中に「名前:」の形で話者を指定し、右枠の「Name」に文章中の名前を入れておきます。これで最大2人までの会話文を生成できます。
実際に読み上げさせてみました。
Google AI Studioで「Gemini 2.5」の制御可能なテキスト読み上げを試してみた – YouTube

ネイティブオーディオ機能はGoogle AI Studioのほか、Vertex AIでGemini APIを介して利用できます。
Googleによると、生成される音声にはすべてGoogleの透かし技術であるSynthIDが埋め込まれているとのことです。
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。