🕛 2026.6.23 21:42 文:かみくだきりく

550Bのうち動くのは55Bだけ。NVIDIAが『必要な専門家だけ呼ぶ』オープンAIを公開

550Bのうち動くのは55Bだけ。NVIDIAが『必要な専門家だけ呼ぶ』オープンAIを公開
X はてブ LINE Feedly

巨大な AI モデルなのに、動かすときは一部しか使わない——そんなモデルが、重みごと公開されました。NVIDIA が出した「Nemotron 3 Ultra」です。総パラメータは550B(5500億)あるのに、1回の処理で実際に動くのは55B(550億)だけ、という構成になっています。

512人の専門家から、毎回上位22人だけ呼ぶ

これ、なかなかうまい仕組みなんですよ。専門家混合(MoE: Mixture-of-Experts)という方式で、モデルの中に512の「専門家」がいて、入力ごとに上位22人だけが反応する。残りは黙っている。ざっくり言うと、大病院に全科の医師が常駐しているけれど、患者ごとに必要な数人だけが診る、みたいな分担です。だから知識の総量(550B)は大きいのに、毎回の計算コスト(55B)は小さく抑えられる。ちなみにこの振り分けを、圧縮した内部空間でやる「LatentMoE」という工夫も入っているとのこと。

Transformer一本でなく、Mambaを混ぜた理由

もう一つの特徴が、いまの主流である Transformer 一本ではなく、Mamba(マンバ)という別方式を混ぜたハイブリッド構成だという点です。Mamba は長い文章を頭から流すように読むのが得意で、長くなっても計算量が急増しにくい(専門的には準二乗で済む)。一方で、長文の中の細かい部分を正確に思い出す作業は Attention(注意機構)が得意なので、そこだけ少し残してある。要は、得意分野で役割分担させた、ということですね。おかげで100万トークンという長い文脈を扱えると報告されています。

同格モデル比で最大5.9倍速い、という数字

数字も出ています。8Kトークン入力・64Kトークン出力という条件で、GLM-5.1 や Kimi-K2.6、Qwen-3.5 といった他のオープン大型モデルに対して、推論の処理速度が最大5.9倍(それぞれ 5.9倍 / 4.8倍 / 1.6倍)。しかも正答率はほぼ同等を保っている、とのこと。事実と違うことを言いにくいかを測る指標(AA-Omniscience)でも78.7と、比較対象の中で最も幻覚が少なかったと報告されています。20兆トークンで学習し、重み・学習データ・再現手順まで公開、というのも大きいですね。

で、何が変わるかというと——まず、長時間動き続ける AI エージェント向けに設計されている点です。エージェントに長い作業を任せると、文脈が伸びて処理が重くなりがちですが、Mamba 混在と専門家混合はそこに効く。日本の事情に引きつけると、重みが公開されたオープンモデルは、自社のサーバーや手元に置いて使える(クラウドに出したくないデータを扱える)のが魅力です。先日の Ling/Ring のようなオープン大型モデルの公開も続いていて、「賢さ」だけでなく「どれだけ軽く速く動かせるか」の競争に軸が移ってきた感があります。とはいえ550Bを手元で快適に動かすにはまだ相応の GPU が要るので、すぐ個人で、とはいきません。まずは解説とベンチマークを眺めつつ、ですね。

情報元: Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer(NVIDIA Research 技術レポート)

みんなの反応

ぬるぽ
(システムエンジニア・30代男性)

MoEで55Bしか動かさないのに550B級の知識、というのは推論コスト的にありがたい設計です。Mamba混在で長文が重くなりにくいのも、長時間動かすエージェント用途では効く。重み公開なので手元で挙動を追えるのが一番うれしいところ。
町工場のおやじ
(町工場経営・60代男性)

クラウドに出したくない図面や見積もりがあるんで、自社のパソコンに置けるってのは魅力だね。ただ550Bを動かすにはいいGPUが要るんだろ。そこが小さい工場には壁だな。値段がこなれてくるのを待つよ。
米農家のむすめ
(米農家・20代女性)

512人の先生がいて、相談ごとに必要な数人だけ出てくる、っていうたとえが分かりやすかったです。全員に聞いたら大変だけど、要る人だけなら早い。AIの中でそういう段取りがされてるって初めて知りました。
書道のおねえさん
(書道教室講師・40代女性)

長い文章を頭から流れるように読むのが得意な仕組みを足した、というところに惹かれました。書も一筆で流れを切らさないのが大事なので。技術の話は難しいけれど、得意なものに役割を任せる考え方は腑に落ちます。
ご隠居さん
(定年退職・年金生活・60代男性)

大きな会社に全部署の人がいても、用がある数人だけ働けば電気代も少なくて済む、という理屈だね。歳をとると無駄に動かないのが一番と分かる。賢さ比べから“いかに楽に速く動くか”に変わってきたのも面白い。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly