🕛 2026.6.23 21:42 文：かみくだきりく

550Bのうち動くのは55Bだけ。NVIDIAが『必要な専門家だけ呼ぶ』オープンAIを公開

巨大な AI モデルなのに、動かすときは一部しか使わない——そんなモデルが、重みごと公開されました。NVIDIA が出した「Nemotron 3 Ultra」です。総パラメータは550B（5500億）あるのに、1回の処理で実際に動くのは55B（550億）だけ、という構成になっています。

512人の専門家から、毎回上位22人だけ呼ぶ

これ、なかなかうまい仕組みなんですよ。専門家混合（MoE: Mixture-of-Experts）という方式で、モデルの中に512の「専門家」がいて、入力ごとに上位22人だけが反応する。残りは黙っている。ざっくり言うと、大病院に全科の医師が常駐しているけれど、患者ごとに必要な数人だけが診る、みたいな分担です。だから知識の総量（550B）は大きいのに、毎回の計算コスト（55B）は小さく抑えられる。ちなみにこの振り分けを、圧縮した内部空間でやる「LatentMoE」という工夫も入っているとのこと。

Transformer一本でなく、Mambaを混ぜた理由

もう一つの特徴が、いまの主流である Transformer 一本ではなく、Mamba（マンバ）という別方式を混ぜたハイブリッド構成だという点です。Mamba は長い文章を頭から流すように読むのが得意で、長くなっても計算量が急増しにくい（専門的には準二乗で済む）。一方で、長文の中の細かい部分を正確に思い出す作業は Attention（注意機構）が得意なので、そこだけ少し残してある。要は、得意分野で役割分担させた、ということですね。おかげで100万トークンという長い文脈を扱えると報告されています。

同格モデル比で最大5.9倍速い、という数字

数字も出ています。8Kトークン入力・64Kトークン出力という条件で、GLM-5.1 や Kimi-K2.6、Qwen-3.5 といった他のオープン大型モデルに対して、推論の処理速度が最大5.9倍（それぞれ 5.9倍 / 4.8倍 / 1.6倍）。しかも正答率はほぼ同等を保っている、とのこと。事実と違うことを言いにくいかを測る指標（AA-Omniscience）でも78.7と、比較対象の中で最も幻覚が少なかったと報告されています。20兆トークンで学習し、重み・学習データ・再現手順まで公開、というのも大きいですね。

で、何が変わるかというと——まず、長時間動き続ける AI エージェント向けに設計されている点です。エージェントに長い作業を任せると、文脈が伸びて処理が重くなりがちですが、Mamba 混在と専門家混合はそこに効く。日本の事情に引きつけると、重みが公開されたオープンモデルは、自社のサーバーや手元に置いて使える（クラウドに出したくないデータを扱える）のが魅力です。先日の Ling/Ring のようなオープン大型モデルの公開も続いていて、「賢さ」だけでなく「どれだけ軽く速く動かせるか」の競争に軸が移ってきた感があります。とはいえ550Bを手元で快適に動かすにはまだ相応の GPU が要るので、すぐ個人で、とはいきません。まずは解説とベンチマークを眺めつつ、ですね。

情報元: Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer（NVIDIA Research 技術レポート）

みんなの反応

ぬ

ぬるぽ
（システムエンジニア・30代男性）

MoEで55Bしか動かさないのに550B級の知識、というのは推論コスト的にありがたい設計です。Mamba混在で長文が重くなりにくいのも、長時間動かすエージェント用途では効く。重み公開なので手元で挙動を追えるのが一番うれしいところ。

町

町工場のおやじ
（町工場経営・60代男性）

クラウドに出したくない図面や見積もりがあるんで、自社のパソコンに置けるってのは魅力だね。ただ550Bを動かすにはいいGPUが要るんだろ。そこが小さい工場には壁だな。値段がこなれてくるのを待つよ。

米

米農家のむすめ
（米農家・20代女性）

512人の先生がいて、相談ごとに必要な数人だけ出てくる、っていうたとえが分かりやすかったです。全員に聞いたら大変だけど、要る人だけなら早い。AIの中でそういう段取りがされてるって初めて知りました。

書

書道のおねえさん
（書道教室講師・40代女性）

長い文章を頭から流れるように読むのが得意な仕組みを足した、というところに惹かれました。書も一筆で流れを切らさないのが大事なので。技術の話は難しいけれど、得意なものに役割を任せる考え方は腑に落ちます。

ご

ご隠居さん
（定年退職・年金生活・60代男性）

大きな会社に全部署の人がいても、用がある数人だけ働けば電気代も少なくて済む、という理屈だね。歳をとると無駄に動かないのが一番と分かる。賢さ比べから“いかに楽に速く動くか”に変わってきたのも面白い。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

550Bのうち動くのは55Bだけ。NVIDIAが『必要な専門家だけ呼ぶ』オープンAIを公開

512人の専門家から、毎回上位22人だけ呼ぶ

Transformer一本でなく、Mambaを混ぜた理由

同格モデル比で最大5.9倍速い、という数字

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事