
巨大なAIモデルの話は、たいてい「どこそこが新しい最強モデルを出した、ただし使えるのはAPI越し」で終わる。今回はそこが少し違っていて、1兆パラメータ級のモデルを、しかも2種類、重み(モデルの中身そのもの)ごと配ってきた。中国の InclusionAI(Ant Group 系の研究チーム)が公開した「Ling and Ring 2.6」の技術報告です。
6 月 13 日に arXiv へ出た報告で、出てきたのは性格の違う双子のようなモデルだ。片方の Ling-2.6 は、聞かれたことにサッと即答する係。もう片方の Ring-2.6-1T は、腰を据えて考え込んでから動く係。前者は応答の速さと「1トークンあたりの賢さ」を、後者は深い推論とエージェント的な振る舞いを担う。役割を分けて作り分けた、というのがまず面白いところです。
両方とも総パラメータは1兆規模。ただし Ling-2.6-1T は MoE(混合エキスパート)で、256の専門家からトークンごとに8つを選ぶ。巨大な組織から案件に合う担当チームだけを呼ぶイメージですね。論文には活性パラメータ総数は明記されていません。要はこういうことですね。毎回すべての専門家を動かす設計ではない、ということです。
そして推論型の Ring-2.6-1T は MIT ライセンスのオープンウェイトで公開されている。MIT ライセンスというのは、商用利用も改変も再配布もかなり自由にできる、ゆるい約束ごとのことだ。要は「持ち帰って自社の環境で動かしていい」。日本の企業や研究室にとって、ここが地味に効く。社外にデータを出せない案件でも、自前のサーバーに置いて推論やエージェントを試せる余地が出てくるからです。API 一本に乗せると、価格改定にも仕様変更にも振り回される。手元で動く1兆級の選択肢が増えるのは、その依存を薄める方向に働く。
作り方にも工夫がある。普通なら新世代モデルはゼロから学習し直すが、今回は前世代の Ling-2.0 を土台にして、アーキ移行という形で構造だけ新しい間取りに引っ越しさせ、そのうえで継続学習で鍛え直したという。家を建て直すのではなく、骨組みを今風に組み替えて住み続ける、に近い。学習コストを抑えながら新構造の効きを取りにいった、と読める。
その新しい間取りの中心が、Lightning Attention と MLA を組み合わせたハイブリッド線形注意だ。注意機構というのは、文章のどの部分に目を配るかを決める仕組みで、長い文脈になるほど計算が重くなる弱点がある。そこを軽い方式(Lightning)で大部分を回し、要所だけ精度の高い方式(MLA)に任せることで、長い読み書きの効率を上げている。さらに推論型の Ring-2.6-1T には KPop という強化学習の枠組みを使い、実際に環境に触れて動くデータの上でも学習が暴れないように安定させたとのこと。エージェントとして道具を使わせると、途中で挙動が崩れやすい。そこを御す側に手を入れた、ということです。
正直に書いておくと、各種ベンチマークの具体的な数字は、今回確認できた範囲では断定しません(技術報告の本文で照合してから追記します)。確実なのは、1兆級を2系統、しかも推論型はオープンウェイトで配った、という事実のほうだ。性能が既存の最上位に並ぶかどうかは、これから第三者の追試と実利用で見えてくる。MoE は活性パラメータこそ小さいものの、1兆の重みを丸ごとメモリに載せる必要はあるので、「無料だから誰でも家のPCで」とまではいかない。動かすにはそれなりのGPUが要る、という現実は残る。
それでも流れははっきりしている。少し前まで、1兆級は一部の巨大企業が囲い込み、API の向こうにしか存在しなかった。それがオープンウェイトで降りてきて、即答型と熟考型まで選べるようになった。日本の開発現場で言えば、ChatGPT や Claude を「外から借りる」だけでなく、推論エンジンを自社に「据え付ける」選択肢が一段現実的になった、ということです。すぐに乗り換える話ではない。まあ、急がなくていいんですけど、巨大モデルが手の届く場所に下りてくる速度は、思っていたより速い。半年後、自社の閉じた環境で1兆級を回している会社が、案外ふつうに出てきているかもしれません。
情報元: Ling and Ring 2.6 技術報告:1兆パラメータ規模での効率的かつ即応的なエージェント知能 (arXiv)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。