OpenAIがリアルタイム会話・通訳・文字起こしAIをリリース、「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3種 – GIGAZINE


AI


OpenAIがリアルタイム音声対話AI「GPT-Realtime-2」、リアルタイム音声翻訳AI「GPT-Realtime-Translate」、リアルタイム文字起こしAI「GPT-Realtime-Whisper」の3種を2026年5月7日にリリースしました。

Advancing voice intelligence with new models in the API | OpenAI
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

GPT-Realtime-2はGPT-5シリーズと同等の推論能力を備えた音声モデルとしてアピールされています。リアルタイムで会話できるほどの処理速度を備えつつ、高度な会話を自然に進めることが可能。ベンチマークテストではGPT-Realtime-1.5を上回るスコアを記録しています。


第三者機関のArtificial Analysisが実施した会話理解性能のベンチマーク結果が以下。GPT-Realtime-2はStep-Audio R1.1やGrok Voice Think Fast 1.0には劣るものの、Gemini 3.1 Fash Live Previewを上回っています。


GPT-Realtime-Translateはユーザーが発する音声をリアルタイムで別言語に翻訳できるAIです。OpenAIの研究者であるJason Liu氏が投稿した以下のポストでは、英語をリアルタイムで日本語に翻訳する様子を確認できます。


GPT-Realtime-Whisperは発話と同時に文字起こしできるAIで、リアルタイム字幕や議事録などの作成に役立つとされています。

「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」はAPI経由で利用可能。GPT-Realtime-2のAPI料金は入力100万トークン当たり32ドル(約5020円)、出力100万トークン当たり64ドル(約1万40円)です。また、GPT-Realtime-TranslateのAPI料金は1分当たり0.034ドル(約5.33円)で、GPT-Realtime-WhisperのAPI料金は1分当たり0.017ドル(約2.67円)です。

3種のAPIの仕様は以下のリンク先にまとまっています。

gpt-realtime-2 Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-2

gpt-realtime-translate Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-translate

gpt-realtime-whisper Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-whisper

この記事のタイトルとURLをコピーする




ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事