🕛 2026.5.7 09:20 文:かみくだきりく

OpenAI が AI 訓練用ネットワーク「MRC」を公開、AMD・Intel・MS・NVIDIA と共同

OpenAI が AI 訓練用ネットワーク「MRC」を公開、AMD・Intel・MS・NVIDIA と共同
X はてブ LINE Feedly

OpenAI が AI 訓練用に新しいネットワークプロトコルを公開。

OpenAI が 「MRC(Multipath Reliable Connection)」 という新しい AI スーパーコンピュータ用ネットワークプロトコルを AMD・Broadcom・Intel・Microsoft・NVIDIA と共同で 2026 年 5 月 5 日 に公開しました。Open Compute Project(OCP) の枠で仕様を出しているので、OpenAI 専用の社内実装で閉じず、業界共通の基盤にしたい意図が見えます。

何のニュースか

要は、巨大な AI モデルを学習させるとき、何万台もの GPU を 1 個の計算機のように使い切る ためには、サーバ間の通信プロトコルが追いつかないと話にならない。今回の MRC はそのための新仕様で、複数経路(multipath)を同時に使いながら、片方が落ちても 信頼性を保ったまま 通信を続ける、というのが核です。

OpenAI 自身が「MRC は OpenAI の最大規模 NVIDIA GB200 スパコン群に既にデプロイ済み」と書いていて、Oracle Cloud Infrastructure の Abilene(テキサス)と Microsoft の Fairwater で稼働中、と明言しています。

なぜ重要か

フロンティアモデルの学習では、ボトルネックは GPU そのものよりも GPU 同士をつなぐネットワーク にあります。1 ステップごとに各 GPU が計算した勾配を全部集めて配り直す。ここで 1 台でも遅れると、全員が待ち状態になります。

これ、なかなかすごいんですよ。MRC の特徴をかみくだくと:

  • 複数経路(マルチパス) で同時に通信して、帯域を集約
  • どこか 1 経路でパケットロスや遅延が出ても、別経路が即座に代替
  • 最新 800Gb/s NIC に組み込まれる前提の 信頼性プロトコル

GPT-5 系のような巨大モデルの学習で、ネットワーク起因の停止が出ると 数十時間〜数日の手戻りになることもあります。MRC のような信頼性プロトコルが標準化されれば、停止リスクと再学習コストが構造的に下がる、という話。

仕組みをやさしく

たとえると、重要な荷物を最初から複数の物流ルートに分散して送る ようなものです。どれか 1 本が詰まっても、他の経路で全体の進みを止めにくい。要はこういうことですね。

OpenAI の説明では、MRC は RoCE を拡張 しつつ、SRv6 ベースの source routing を採用しています。従来よりも経路障害をマイクロ秒単位で回避しやすくし、動的ルーティング由来の失敗も減らす設計です。

いまの実力と限界

実力としては、OpenAI が「最大級のクラスタで使ってる」と言い切っているので、研究室レベルではなく 本番運用に耐える成熟度 までは来ているはず。100,000 超 GPU を 2 層の Ethernet スイッチ でつなげる、というのが今回の一番大きい数字です。

限界としては、MRC は通信プロトコルなので、GPU 自体や電源・冷却を解決するわけではない。データセンター電力の調達ボトルネックがある時代に、ネットワークだけ早くしても全体性能が必ず伸びるとは限りません。あと、Google TPU 系の独自スタックとは別線なので、業界全体で 1 本化するかはまだ見えません。

これからどうなるか

半年スパンで見ると、OCP に出た仕様をベースに、ベンダー側の実装や周辺ツールがどう広がるかが見どころです。法人で AI トレーニングを内製している会社にとっては、OpenAI がネットワーク層で何を重視しているかが少し具体的に見えた、という意味があります。

1 年スパンだと、Hugging Face や日本の生成 AI スタートアップが、Open MRC 対応のトレーニングクラスタを国内データセンターに構築する案件が出てきても不思議ではない。3 年スパンだと、MRC が AI スパコン界のデファクトになるか、Google の独自プロトコルと並列したまま終わるかの分岐になります。

だから何が変わるか

直接的に Claude や ChatGPT の応答が速くなる、という話ではないんです。長期では、OpenAI 系のモデル更新サイクルが安定すること、AI トレーニングを自社で回したい日本の法人が、調達しやすい NIC とプロトコルが増えること、この 2 点で日本のユーザーや企業に間接的に恩恵が来る、という整理になります。続報待ちですね。

OpenAI 公式 — Unlocking large scale AI training networks with MRC(英語)

Open Compute Project 公式(英語)

みんなの反応

インフラの仙人
(情シス担当・中堅企業・40 代男性)

AI 学習インフラを社内で持つ気はないけど、MRC が OCP 出しになった意味は大きい。これまで RoCE v2 + DCQCN で頑張ってきた現場が、次世代 NIC 選定で MRC 対応を必須スペックに入れる流れが半年以内に来る予感。NVIDIA の ConnectX 系の次世代モデルが対応で出てきたら、調達タイミングを待つ判断が可能になる。
G
GPU貧乏エンジニア
(MLエンジニア・スタートアップ・20 代男性)

うちは A100 8 枚クラスタで頑張ってる側なので、MRC が直接効くスケールではない。ただ将来のクラウドプロバイダの新インスタンスが MRC 前提で組まれたとき、料金体系と帯域モデルが変わる可能性があるのが気がかり。OpenAI の ChatGPT 学習に使っている裏側を、ここまで論文じゃない形で開示してきた意図はちょっと面白いですね。
ろんぶん先生
(AI研究者・大学准教授・30 代男性)

大規模分散学習のネットワーク層は研究者の間でずっとペインポイントだった領域。MRC が OCP 経由で公開されたことで、論文書く側からも参照できる仕様になる意義は大きい。一方で、論文として読み解くには公式 PDF とリファレンス実装の有無が鍵で、まだ仕様詳細を読み解いていないので評価は保留。次の OCP Summit までに勉強会を開きたい。
D
データの掃除屋
(データエンジニア・30 代男性)

学習側のネットワークは触らない仕事だけど、推論クラスタも今後 MRC 系の信頼性プロトコルに乗ることになるはず。Bedrock や Vertex のレイテンシ揺れが、現状のネット層の不安定さに引きずられている部分はあったので、業界全体で底上げされる方向は単純に歓迎です。
X はてブ LINE Feedly