
「太っ腹」という言葉の使いどころを、久しぶりに見た気がします。
NVIDIA Research が 6 月 4 日、同社最大のオープンモデル「Nemotron 3 Ultra」を公開しました。総パラメータ 5,500 億(550B)、Nemotron 3 ファミリーの最上位にあたるモデルで、重みだけでなく学習データや学習手順、報酬モデルまでまとめて配るという発表です。
550B という数字は載っている知識の総量で、文章を 1 回生成するたびに全部が動くわけではありません。このモデルは MoE(Mixture of Experts、専門家の混合)という構成で、内容に応じて必要な部分だけを呼び出します。動くのは 55B、全体の 1 割。社員 550 人の会社でも、ひとつの案件に出てくるのは選ばれた 55 人だけ、と考えると、巨大さと身軽さが両立する理屈が見えてきます。
土台のつくりも凝っていて、主流の Transformer 一本ではなく、Mamba という別方式との混成です。Mamba は長い文章を流れ作業でさばくのが得意な省エネ型、Transformer の注意機構は要所で全体を見渡して精読する係。速読係に大半を任せて、ここぞの照合だけ精読係を呼ぶ分担ですね(ちなみに学習自体を NVFP4 という 4 ビットの軽い数値形式で行ったのも特徴で、これも計算費を下げる工夫です)。
NVIDIA が出している数字を見ると、8K トークン入力・64K トークン出力の条件で、推論スループットは GLM-5.1(754B)比で最大 5.9 倍、Kimi-K2.6(1T)比で 4.8 倍、Qwen-3.5(397B)比で 1.6 倍とのこと。ベンチマークの精度は最先端のオープンモデルと同等、つまり「賢さは並んだ上で、回すのが速い」を狙った設計です。
文脈は最大 100 万トークンまで扱え、長文記憶のテスト RULER では 100 万トークン時点で他のオープンモデルを上回ったと説明されています。考える深さを推論時に調整できるバジェット制御や、次の数語を先回りして当てる MTP 層(投機的デコードの内蔵版)も載っていて、全体として「長時間動き続けるエージェント」を見据えた構成です。何時間も資料を読んでツールを叩き続ける AI にとっては、速さと長い記憶がそのまま体力になるので。
今回いちばん効いているのは、公開の範囲だと思います。NVFP4 版・BF16 版・ベースモデル・報酬モデル(GenRM)の 4 種のチェックポイントに加えて、事前学習・事後学習に使ったデータセット群、学習レシピのリポジトリまで公開されました。料理にたとえると、完成品の弁当だけでなく、食材と手順書ごと配っている状態です。
日本にとってこれは教材として相当大きい話で、国産 LLM を開発している企業や研究機関は、フロンティア級モデルの「作り方」を一次資料で検証できることになります。一方で冷静な線引きも必要で、550B を家庭の PC で動かすのはさすがに無理ですし(活性 55B でもデータセンター級の GPU が要ります)、賢さ自体が既存のトップを抜いたわけでもありません。
それでも、ChatGPT や Claude の裏側で動くようなエージェントの運用コストが下がる方向に効く話なので、巡り巡って、私たちが使う AI サービスの「長時間任せられる度」と値段に返ってきます。頭脳の中身がここまで開けっ広げになると、あとは誰がこの手順書で何を作るかの競争です。そこに日本のチームの名前が混ざってくるのを、わりと本気で待っています。
情報元: NVIDIA Nemotron 3 Ultra (NVIDIA Research)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。