🕛 2026.5.8 11:20 文:ズバッとショウ

OpenAI、音声 API に 3 モデル一気投入。GPT-Realtime-2 で会話・翻訳・文字起こしを分担

OpenAI、音声 API に 3 モデル一気投入。GPT-Realtime-2 で会話・翻訳・文字起こしを分担
X はてブ LINE Feedly

OpenAI、音声を一気に 3 モデルでアップデート。

OpenAI が 2026 年 5 月 7 日、Realtime API に GPT-Realtime-2 / GPT-Realtime-Translate / GPT-Realtime-Whisper の 3 モデルを同時投入したと発表した。会話・翻訳・文字起こしを別々のモデルで担う構成。Microsoft も同日 Azure AI Foundry で 3 モデルのロールアウトを告知している。

何が起きたか

公式ブログ「Advancing voice intelligence with new models in the API」によると、GPT-Realtime-2 は GPT-5 クラスの推論を音声で出すフラッグシップ。GPT-Realtime-Translate はライブ翻訳。GPT-Realtime-Whisper はストリーミング文字起こし。Realtime API 上で開発者が役割ごとに使い分ける作りだ。

GPT-Realtime-2 の仕様で目立つのはコンテキストの拡張。32K から 128K に増えた。さらに reasoning レベルが minimal / low / medium / high / xhigh の 5 段階で選べ、デフォルトは low。レイテンシ重視か、複雑タスクで踏み込ませるかを開発側で振れる、という話。

ベンチも公式が出している。Big Bench Audio で前世代比 +15.2 ポイント、Audio MultiChallenge で +13.8 ポイント(xhigh)。要するに「会話を保ったまま考える」方向に振れた、という結果。

誰に関係あるか

API を叩く側、つまり日本国内でいえば AI 音声サービスを内製しているスタートアップ、コールセンター系 SaaS、動画配信の自動字幕やインタビュー文字起こしを組み込みたい開発チーム。Realtime API の WebRTC を使ってコールフローに刺せる構成は変わらない。

ノンエンジニア層に降りてくるのは、これを採用した音声サービスやアプリが出てきてから。今回の一次情報で確認できるのは Realtime API 向け 3 モデルの投入 までで、ChatGPT 側の反映時期までは明示されていません。API ユーザーは今日から触れる、エンドユーザー向け体験は続報待ち。

数字で整理

価格は OpenAI 公式表記から拾う。

  • GPT-Realtime-2: 音声入力 1M トークンあたり 32 ドル(キャッシュ入力は 0.40 ドル)/音声出力 64 ドル
  • GPT-Realtime-Translate: 0.034 ドル / 分(70+ 入力言語 → 13 出力言語)
  • GPT-Realtime-Whisper: 0.017 ドル / 分(ストリーミング STT)

1 ドル 156 円換算で、Translate は 約 5.3 円 / 分、Whisper は 約 2.7 円 / 分。コールセンターで月 1 万分回せば Whisper だけで月 27,000 円程度。Translate は同条件で約 53,000 円。日本国内の文字起こし SaaS と比較する材料にはなる。

ここがポイントで

GPT-Realtime-2 は、ツール並列呼び出しと「ツール透明化」を入れてきた。「カレンダー確認しています」「いま調べます」を声で挟みながら、裏でツールを叩く、という挙動が標準で出る。エージェント側で preamble(前置き)を on にできるので、ユーザーが沈黙に耐える必要がない設計。

ドメイン語彙の保持も上がった、と公式は明記している。医療用語や固有名詞のミスを減らせる、という主張で、Zillow は不動産の物件交渉での Fair Housing 規制チェックで「言い回しの硬さ」が改善されたとコメント。

注意点

公式は コンテンツ違反検出による自動停止 が API セッションに走ることをあらかじめ書いている。Agents SDK でアプリ側のガードレールは追加できるが、ベース側で会話を切られるケースがある前提で設計したい。あと、開発者には「AI と話している旨を文脈で明示せよ」というルールも明記された。

で、どうする

要するに、Realtime 系のフラッグシップが動くなら 既存の GPT-Realtime-1.5 ベース実装は早めに移行検討 が筋。Translate / Whisper は分単価が安く、用途別に分けて呼ぶ構成で APIコストが読める。深く触る前に、ChatGPT 側 voice の本番降臨を待つ手もあるが、API を商用で回している開発チームから順に乗り換えていく流れ、というのが結局のところ。

みんなの反応

G
GPU貧乏エンジニア
(MLエンジニア・20代男性)

128K コンテキストはありがたい。これまでセッションを切って状態管理を別 DB に押し出してたけど、長尺のサポート通話を 1 セッションで回せそう。reasoning xhigh はコストが怖いので medium 固定で運用すると思う

呪文つかい
(プロンプトエンジニア・30代女性)

preamble を素直に書けるようになったのは設計が変わる話。これまで「ちょっと待ってください」を別ステートで実装してたのを、システムプロンプト側に寄せられそう。adjustable reasoning と組み合わせて応答パターンを切り分けられる

エージェント職人
(AIエージェント開発者・20代男性)

並列 tool calling と「ツール透明化」って地味だけど効くやつ。沈黙が出ない分、UX 評価が上がる。WebRTC の実装は据え置きなので、既存の声 SDK にモデル名差し替えだけで動かせる構成は助かる

深セン通信
(深セン在住テックライター・30代男性)

Translate が 70+ 入力 / 13 出力って、英語・中国語・スペイン語あたりが厚くて日本語は微妙な気がする。Hindi / Tamil の WER 改善は BolnaAI の声明だけど、東アジア言語のベンチがほしい

安全第一マン
(AIセーフティ研究者・40代女性)

active classifier がセッションを途中で切る、を明示しているのは健全。誤検知で正規通話が切られるリスクは残るので、業務系で使うチームは Agents SDK でガードレールを足す前提で見積もったほうがいいです

X はてブ LINE Feedly