
AWS が Amazon SageMaker HyperPod に、Slurm クラスタの topology 自動管理 機能を追加しました(AWS What’s New、2026-04)。これ、実物使うと印象変わるやつです。ML 基盤の地味に重い手運用が、1 個まるごと消える話。
AWS の発表本文で、機能説明は 1 文で書かれています。
Amazon SageMaker HyperPod now automatically selects and continuously maintains the optimal network topology configuration for Slurm clusters.
つまり、Slurm クラスタの 最適なネットワークトポロジ(どのノードをどのスイッチ経由でどう束ねるか)を、自動で選び、かつ継続的に維持する 機能。地味な一文ですが、現場感覚でいうとこれは相当大きい話です。
大規模分散学習のクラスタを組むとき、いちばん重いのはハードそのものより 「どのノードを近いスイッチ配下に寄せるか」の設計 です。
これまで HyperPod の Slurm クラスタでは、この トポロジ情報を手で設定する 必要がありました。cluster-config に topology.plugin=topology/tree を入れて、ノードグループを物理配置に合わせて手動で記述する、というやつです。
個人的に刺さったのは、「continuously maintains(継続的に維持する)」の方です。静的に最適化するだけじゃなく、ノード障害や入れ替えで構成が変わるたびに自動で最適化し直す、という設計。大規模クラスタを長時間走らせる研究チームには、運用コストがガクッと下がる話。
前モデル(手動設定)と比べると、以下の手間がなくなります。
要するに、ML エンジニアが「モデルと学習戦略」に集中できる ようになる、というのが AWS の狙いと読めます。
Slurm を扱う側面では、クラウド各社の対応はこんな感じです。
クラウド間の「大規模 ML クラスタ運用ツール」差別化軸が、自動化のレベル に移ってきた、と見るのが自然です。AWS は re:Invent 2024 以降 HyperPod を推してきたので、今回の自動化は流れに沿った拡張。
公開タイミングは AWS What’s New 告知の日付(2026-04)です。具体的なリージョン・既存クラスタへの適用方法・料金への影響は短文告知には書かれていないので、正式ドキュメント(HyperPod Developer Guide)か Re:Invent セッションを確認 するのが確実。
対象は 大規模 ML 基盤を AWS 上で運用しているチーム。小規模なら EC2 + pcluster でも足りますが、100 ノード超で Slurm を本気で回しているチームには、今回の自動化は運用面で効くはず。即レビューしたい類の機能です。
AWS What’s New — Amazon SageMaker HyperPod now supports automatic Slurm topology management