OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に – GIGAZINE


OpenAIが、2024年10月に公開したChatGPTのリアルタイム会話機能をアプリに組み込める「Realtime API」をベータ版から正式版にアップデートし、一般公開しました。また、実用的な音声対話モデル(音声AI)「gpt-realtime」も発表されています。

「Realtime API」は2024年10月、テキスト読み上げAPIを経由することなく、音声認識モデルとオーディオ入出力を直接行うことで遅延を減らせるAPIとして登場しました。

OpenAIが「ChatGPTのリアルタイム会話機能をアプリに組み込めるAPI」をリリース – GIGAZINE


OpenAIによると、このパブリックベータ版公開後、何千人もの開発者がAPIを導入して改善点が洗い出された結果、信頼性、低遅延、高品質を実現して、音声エージェントを運用環境に正常に導入できるよう最適化されているとのこと。実際に、不動産情報サイトのZillowや、通信会社のT-Mobileなどで、自然に応答する音声エージェントが導入されています。

そして、新たに発表された音声対話モデルが、複雑な指示の理解やツールの正確な呼び出し、より自然で表現豊かな音声生成の改善などを盛り込んだ「gpt-realtime」です。OpenAIによると、システムメッセージや開発者プロンプトの解釈能力も向上し、サポート通話での免責事項の説明の逐語読み上げ、英数字の復唱、文中の言語のシームレスな切り替えなどに対応しているとのこと。

OpenAIのスタッフによるgpt-realtimeの紹介とデモンストレーションの映像が公開されています。

Introducing gpt-realtime in the API – YouTube


音声認識の遅延の少なさや、言語のシームレスな切り替えなどが確認できます。


音声エージェントの展開には自然な会話が不可欠。gpt-realtimeでは、より自然に聞こえ、きめ細かい指示にも従うより高品質な音声を生成するためのトレーニングが行われたとのことで、新たに「Cedar」と「Marin」という2つの音声が加わったほか、既存の8つの音声も更新されたとのこと。

Marinのサンプルボイスはこんな感じ。

Cedarのサンプルボイスはこんな感じです。

gpt-realtimeは音声理解力も以前より高まっており、電話番号などの英数字の検出精度は82.8%と、2024年12月以前のモデルの65.6%から大きく改善されています。


また、開発者はモデルに対して「特定の状況で何を言うべきか、何をすべきか・すべきでないか」といった行動規範を指示します。OpenAIはこうした指示を守ることに集中して改善を行い、指示順守精度を測るMultiChallenge音声ベンチマークで30.5%というスコアを記録しました。これは2024年12年の従来モデルが記録した20.6%から大幅に向上しています。


関数呼び出しでも、ComplexFuncBench Audio Function Callingベンチマークで66.5%のスコアを記録し、従来モデルの49.7%を大きく上回りました。


このほか、MCPサポートの有効化や画像入力のサポートなどの改善が加わっています。

gpt-realtimeの利用料金はgpt-4o-realtime-previewと比較して20%安くなり、音声入力トークンが100万件あたり32ドル(約4700円)・キャッシュ済み入力トークンは0.4ドル(約59円)、音声出力トークンは100万件あたり64ドル(約9400円)となっています。

この記事のタイトルとURLをコピーする




ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事