🕛 2026.6.20 22:38 文:かみくだきりく

『即答する1兆』と『じっくり考える1兆』、モデル重みを公開。中国発AIが二刀流で来た

『即答する1兆』と『じっくり考える1兆』、モデル重みを公開。中国発AIが二刀流で来た
X はてブ LINE Feedly

巨大なAIモデルの話は、たいてい「どこそこが新しい最強モデルを出した、ただし使えるのはAPI越し」で終わる。今回はそこが少し違っていて、1兆パラメータ級のモデルを、しかも2種類、重み(モデルの中身そのもの)ごと配ってきた。中国の InclusionAI(Ant Group 系の研究チーム)が公開した「Ling and Ring 2.6」の技術報告です。

6 月 13 日に arXiv へ出た報告で、出てきたのは性格の違う双子のようなモデルだ。片方の Ling-2.6 は、聞かれたことにサッと即答する係。もう片方の Ring-2.6-1T は、腰を据えて考え込んでから動く係。前者は応答の速さと「1トークンあたりの賢さ」を、後者は深い推論とエージェント的な振る舞いを担う。役割を分けて作り分けた、というのがまず面白いところです。

なぜ「1兆を2つ」を、わざわざ重みごと配るのか

両方とも総パラメータは1兆規模。ただし Ling-2.6-1T は MoE(混合エキスパート)で、256の専門家からトークンごとに8つを選ぶ。巨大な組織から案件に合う担当チームだけを呼ぶイメージですね。論文には活性パラメータ総数は明記されていません。要はこういうことですね。毎回すべての専門家を動かす設計ではない、ということです。

そして推論型の Ring-2.6-1T は MIT ライセンスのオープンウェイトで公開されている。MIT ライセンスというのは、商用利用も改変も再配布もかなり自由にできる、ゆるい約束ごとのことだ。要は「持ち帰って自社の環境で動かしていい」。日本の企業や研究室にとって、ここが地味に効く。社外にデータを出せない案件でも、自前のサーバーに置いて推論やエージェントを試せる余地が出てくるからです。API 一本に乗せると、価格改定にも仕様変更にも振り回される。手元で動く1兆級の選択肢が増えるのは、その依存を薄める方向に働く。

ゼロから作り直さず、前世代を「間取りごと引っ越し」させた

作り方にも工夫がある。普通なら新世代モデルはゼロから学習し直すが、今回は前世代の Ling-2.0 を土台にして、アーキ移行という形で構造だけ新しい間取りに引っ越しさせ、そのうえで継続学習で鍛え直したという。家を建て直すのではなく、骨組みを今風に組み替えて住み続ける、に近い。学習コストを抑えながら新構造の効きを取りにいった、と読める。

その新しい間取りの中心が、Lightning Attention と MLA を組み合わせたハイブリッド線形注意だ。注意機構というのは、文章のどの部分に目を配るかを決める仕組みで、長い文脈になるほど計算が重くなる弱点がある。そこを軽い方式(Lightning)で大部分を回し、要所だけ精度の高い方式(MLA)に任せることで、長い読み書きの効率を上げている。さらに推論型の Ring-2.6-1T には KPop という強化学習の枠組みを使い、実際に環境に触れて動くデータの上でも学習が暴れないように安定させたとのこと。エージェントとして道具を使わせると、途中で挙動が崩れやすい。そこを御す側に手を入れた、ということです。

いまの実力と、まだ言い切れないところ

正直に書いておくと、各種ベンチマークの具体的な数字は、今回確認できた範囲では断定しません(技術報告の本文で照合してから追記します)。確実なのは、1兆級を2系統、しかも推論型はオープンウェイトで配った、という事実のほうだ。性能が既存の最上位に並ぶかどうかは、これから第三者の追試と実利用で見えてくる。MoE は活性パラメータこそ小さいものの、1兆の重みを丸ごとメモリに載せる必要はあるので、「無料だから誰でも家のPCで」とまではいかない。動かすにはそれなりのGPUが要る、という現実は残る。

それでも流れははっきりしている。少し前まで、1兆級は一部の巨大企業が囲い込み、API の向こうにしか存在しなかった。それがオープンウェイトで降りてきて、即答型と熟考型まで選べるようになった。日本の開発現場で言えば、ChatGPT や Claude を「外から借りる」だけでなく、推論エンジンを自社に「据え付ける」選択肢が一段現実的になった、ということです。すぐに乗り換える話ではない。まあ、急がなくていいんですけど、巨大モデルが手の届く場所に下りてくる速度は、思っていたより速い。半年後、自社の閉じた環境で1兆級を回している会社が、案外ふつうに出てきているかもしれません。

情報元: Ling and Ring 2.6 技術報告:1兆パラメータ規模での効率的かつ即応的なエージェント知能 (arXiv)

みんなの反応

島ぐらしCTO
(ゲストハウス経営・60代男性)

オープンウェイトで1兆級、しかも推論型がMITというのは現役時代なら飛びついていた話です。社外にデータを出せない案件で、自前サーバーに据えて試せる余地が広がるのは大きい。ただ記事の通り、活性が500億でも重みは丸ごとメモリに載るので、動かす側の覚悟は要る。借りるか据え付けるか、選択肢が増えたこと自体を歓迎したいですね。
ぬるぽ
(システムエンジニア・30代男性)

MoEで1トークンあたり実働50Bってのが効きどころで、総数1兆のわりに推論コストを現実的な線に収めてくる設計。前世代をアーキ移行で引っ越しさせて継続学習、という作り方も合理的でずるい。ベンチの実数はこれから追試で見たいが、即答型と熟考型を分けて配ってきた判断はまっとうだと思う。手元で回してみたい。
ご隠居さん
(隠居・60代男性)

即答する係と、考え込んでから動く係。これはもう寄席の二人組ですな。ぱっと落ちをつける軽い相方と、間をたっぷり取る重い相方、両方そろって芸になる。1兆人の社員から数十人だけ会議室に呼ぶ、ってえ例えも分かりやすくて感心した。難しい話を、落とさずに噛み砕くのは存外むずかしいのですよ。
パン屋のおかみ
(ベーカリー店主・40代女性)

正直むずかしい用語は半分くらいしか分からなかったけど、「持ち帰って自分のところで動かしていい」っていうのは伝わりました。よそのレシピを借り続けるんじゃなくて、自分の厨房に置けるってことですよね。うちみたいな小さい店でもいつか関係する日が来るのかな、と思うと、遠い話に思えなくなりました。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly