OpenAIがリアルタイム音声対話AI「GPT-Realtime-2」、リアルタイム音声翻訳AI「GPT-Realtime-Translate」、リアルタイム文字起こしAI「GPT-Realtime-Whisper」の3種を2026年5月7日にリリースしました。
Advancing voice intelligence with new models in the API | OpenAI
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
GPT-Realtime-2はGPT-5シリーズと同等の推論能力を備えた音声モデルとしてアピールされています。リアルタイムで会話できるほどの処理速度を備えつつ、高度な会話を自然に進めることが可能。ベンチマークテストではGPT-Realtime-1.5を上回るスコアを記録しています。
第三者機関のArtificial Analysisが実施した会話理解性能のベンチマーク結果が以下。GPT-Realtime-2はStep-Audio R1.1やGrok Voice Think Fast 1.0には劣るものの、Gemini 3.1 Fash Live Previewを上回っています。
GPT-Realtime-Translateはユーザーが発する音声をリアルタイムで別言語に翻訳できるAIです。OpenAIの研究者であるJason Liu氏が投稿した以下のポストでは、英語をリアルタイムで日本語に翻訳する様子を確認できます。
新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason liu (@jxnlco) May 7, 2026
GPT-Realtime-Whisperは発話と同時に文字起こしできるAIで、リアルタイム字幕や議事録などの作成に役立つとされています。
「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」はAPI経由で利用可能。GPT-Realtime-2のAPI料金は入力100万トークン当たり32ドル(約5020円)、出力100万トークン当たり64ドル(約1万40円)です。また、GPT-Realtime-TranslateのAPI料金は1分当たり0.034ドル(約5.33円)で、GPT-Realtime-WhisperのAPI料金は1分当たり0.017ドル(約2.67円)です。
3種のAPIの仕様は以下のリンク先にまとまっています。
gpt-realtime-2 Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-2
gpt-realtime-translate Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-translate
gpt-realtime-whisper Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-whisper
この記事のタイトルとURLをコピーする
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。


