
巨大な AI モデルなのに、動かすときは一部しか使わない——そんなモデルが、重みごと公開されました。NVIDIA が出した「Nemotron 3 Ultra」です。総パラメータは550B(5500億)あるのに、1回の処理で実際に動くのは55B(550億)だけ、という構成になっています。
これ、なかなかうまい仕組みなんですよ。専門家混合(MoE: Mixture-of-Experts)という方式で、モデルの中に512の「専門家」がいて、入力ごとに上位22人だけが反応する。残りは黙っている。ざっくり言うと、大病院に全科の医師が常駐しているけれど、患者ごとに必要な数人だけが診る、みたいな分担です。だから知識の総量(550B)は大きいのに、毎回の計算コスト(55B)は小さく抑えられる。ちなみにこの振り分けを、圧縮した内部空間でやる「LatentMoE」という工夫も入っているとのこと。
もう一つの特徴が、いまの主流である Transformer 一本ではなく、Mamba(マンバ)という別方式を混ぜたハイブリッド構成だという点です。Mamba は長い文章を頭から流すように読むのが得意で、長くなっても計算量が急増しにくい(専門的には準二乗で済む)。一方で、長文の中の細かい部分を正確に思い出す作業は Attention(注意機構)が得意なので、そこだけ少し残してある。要は、得意分野で役割分担させた、ということですね。おかげで100万トークンという長い文脈を扱えると報告されています。
数字も出ています。8Kトークン入力・64Kトークン出力という条件で、GLM-5.1 や Kimi-K2.6、Qwen-3.5 といった他のオープン大型モデルに対して、推論の処理速度が最大5.9倍(それぞれ 5.9倍 / 4.8倍 / 1.6倍)。しかも正答率はほぼ同等を保っている、とのこと。事実と違うことを言いにくいかを測る指標(AA-Omniscience)でも78.7と、比較対象の中で最も幻覚が少なかったと報告されています。20兆トークンで学習し、重み・学習データ・再現手順まで公開、というのも大きいですね。
で、何が変わるかというと——まず、長時間動き続ける AI エージェント向けに設計されている点です。エージェントに長い作業を任せると、文脈が伸びて処理が重くなりがちですが、Mamba 混在と専門家混合はそこに効く。日本の事情に引きつけると、重みが公開されたオープンモデルは、自社のサーバーや手元に置いて使える(クラウドに出したくないデータを扱える)のが魅力です。先日の Ling/Ring のようなオープン大型モデルの公開も続いていて、「賢さ」だけでなく「どれだけ軽く速く動かせるか」の競争に軸が移ってきた感があります。とはいえ550Bを手元で快適に動かすにはまだ相応の GPU が要るので、すぐ個人で、とはいきません。まずは解説とベンチマークを眺めつつ、ですね。
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。