
OpenAI、音声を一気に 3 モデルでアップデート。
OpenAI が 2026 年 5 月 7 日、Realtime API に GPT-Realtime-2 / GPT-Realtime-Translate / GPT-Realtime-Whisper の 3 モデルを同時投入したと発表した。会話・翻訳・文字起こしを別々のモデルで担う構成。Microsoft も同日 Azure AI Foundry で 3 モデルのロールアウトを告知している。
公式ブログ「Advancing voice intelligence with new models in the API」によると、GPT-Realtime-2 は GPT-5 クラスの推論を音声で出すフラッグシップ。GPT-Realtime-Translate はライブ翻訳。GPT-Realtime-Whisper はストリーミング文字起こし。Realtime API 上で開発者が役割ごとに使い分ける作りだ。
GPT-Realtime-2 の仕様で目立つのはコンテキストの拡張。32K から 128K に増えた。さらに reasoning レベルが minimal / low / medium / high / xhigh の 5 段階で選べ、デフォルトは low。レイテンシ重視か、複雑タスクで踏み込ませるかを開発側で振れる、という話。
ベンチも公式が出している。Big Bench Audio で前世代比 +15.2 ポイント、Audio MultiChallenge で +13.8 ポイント(xhigh)。要するに「会話を保ったまま考える」方向に振れた、という結果。
API を叩く側、つまり日本国内でいえば AI 音声サービスを内製しているスタートアップ、コールセンター系 SaaS、動画配信の自動字幕やインタビュー文字起こしを組み込みたい開発チーム。Realtime API の WebRTC を使ってコールフローに刺せる構成は変わらない。
ノンエンジニア層に降りてくるのは、これを採用した音声サービスやアプリが出てきてから。今回の一次情報で確認できるのは Realtime API 向け 3 モデルの投入 までで、ChatGPT 側の反映時期までは明示されていません。API ユーザーは今日から触れる、エンドユーザー向け体験は続報待ち。
価格は OpenAI 公式表記から拾う。
1 ドル 156 円換算で、Translate は 約 5.3 円 / 分、Whisper は 約 2.7 円 / 分。コールセンターで月 1 万分回せば Whisper だけで月 27,000 円程度。Translate は同条件で約 53,000 円。日本国内の文字起こし SaaS と比較する材料にはなる。
GPT-Realtime-2 は、ツール並列呼び出しと「ツール透明化」を入れてきた。「カレンダー確認しています」「いま調べます」を声で挟みながら、裏でツールを叩く、という挙動が標準で出る。エージェント側で preamble(前置き)を on にできるので、ユーザーが沈黙に耐える必要がない設計。
ドメイン語彙の保持も上がった、と公式は明記している。医療用語や固有名詞のミスを減らせる、という主張で、Zillow は不動産の物件交渉での Fair Housing 規制チェックで「言い回しの硬さ」が改善されたとコメント。
公式は コンテンツ違反検出による自動停止 が API セッションに走ることをあらかじめ書いている。Agents SDK でアプリ側のガードレールは追加できるが、ベース側で会話を切られるケースがある前提で設計したい。あと、開発者には「AI と話している旨を文脈で明示せよ」というルールも明記された。
要するに、Realtime 系のフラッグシップが動くなら 既存の GPT-Realtime-1.5 ベース実装は早めに移行検討 が筋。Translate / Whisper は分単価が安く、用途別に分けて呼ぶ構成で APIコストが読める。深く触る前に、ChatGPT 側 voice の本番降臨を待つ手もあるが、API を商用で回している開発チームから順に乗り換えていく流れ、というのが結局のところ。