
Google DeepMind がDecoupled DiLoCo という、AI モデルの訓練手法の新しい版を 2026 年 4 月 23 日に発表しました。複数のデータセンターにまたがって、大規模な AI モデルを訓練するための、柔軟で耐障害性のある手法、と DeepMind は書いています。
ふと考えてしまうんですが、この 3 年で AI の学習場所は大きく変わりました。かつては「ひとつの巨大なデータセンターに膨大な GPU を詰めて、そこで学ばせる」が主流だった。ところが、電力・冷却・立地の制約がどこも同じように逼迫してきた結果、「複数の拠点をつなぎ、場所を分けて訓練する」というアプローチが現実的な選択肢に上がってきています。
Decoupled DiLoCo は、この流れの中で、どう拠点同士を協調させるかという問いに対する、DeepMind からの新しい回答です。
DiLoCo という言葉は、Distributed Low-Communication の略です。2024 年あたりから DeepMind が公開してきた、通信量を減らしながら、離れた場所で一緒にモデルを学ばせるためのアルゴリズム群です。
仕組みを光と影の両方から見ておきたい。光の側は、データセンターを物理的に離れた場所(極端に言えば大陸をまたいで)に置けること。一箇所の停電や自然災害に、全体が巻き込まれない。影の側は、拠点間の通信が遅くて細いため、素朴に全部を同期しようとすると、学習速度が大幅に落ちるという現実がありました。
Decoupled 版は、この通信の制約をさらに緩める設計、と読み取れます。拠点同士の同期タイミングを切り離す(decouple)ことで、遅い拠点が全体を止めない。これが耐障害性の本義です。
公式がここで面白い数字も出していて、8 datacenters 想定では required bandwidth が 198 Gbps から 0.84 Gbps まで下がり、1.2 million chips の高故障率シミュレーションでも goodput が 88% を維持した、としています。こういう具体値が出てくると、研究の話が急に現実味を帯びます。
歴史を振り返ると、分散訓練という発想自体は、2010 年代から何度も試みられてきました。ただ当時のモデルのサイズでは、ひとつのクラスタで十分に収まった。今は違います。GPT-5.5 が出てきた同じ週に、モデルを訓練するための拠点をどう確保するか、という土台の研究が公表された──これは偶然ではないと思います。
どこに立って見るかで、景色がまるで変わる話です。技術者から見れば「通信量と収束速度のトレードオフの新しい均衡点」。電力インフラの人から見れば「世界中の余剰電力をどう繋いで使うか」。そして社会の側から見れば「AI の学習がどこの国で、どの電気を使って行われるか」という、ガバナンスの話題にもつながっていきます。
非英語圏の AI 政策という文脈でも、この話は重要です。自国の電気と自国のデータセンターだけで最先端モデルを訓練するのは、いまやごく少数の国の選択肢です。Decoupled DiLoCo のような枠組みが実装されていけば、小規模な国や地域でも、自分たちの拠点を連ねて参加できる可能性が広がる──理想論としてはそういう話です。
一方で、技術が開かれても、協調の実態は政治と経済が決めるのも事実。AI の学習インフラは今後、物理と外交が絡み合う領域に入っていきます。
Decoupled DiLoCo は、DeepMind のブログで研究成果として共有された段階で、ここから実装・採用・標準化のステップが続きます。ただ、公式はすでに 12B のモデルを 4 つの米国リージョンにまたがって、2-5 Gbps の wide-area network で回し、従来の同期方式より 20 倍以上速かったとも書いている。答えを急がずに、とは言いつつ、もう「机上の話だけ」ではない段階に入っています。
ただ、「AI の学習は一箇所で行われる」という前提が、ゆっくりと解かれていくのは確かです。この変化は、モデルの性能だけでなく、AI が社会のどこに根を下ろすかに関わる話でもある。それは、モデル発表のニュース以上に、じっくり見ておきたい変化です。
Google DeepMind Blog — Decoupled DiLoCo: A new frontier for resilient, distributed AI training