🕛 2026.5.25 11:37 文:かみくだきりく

「消す」と「書く」を別のつまみに。NVIDIAの線形アテンションがMamba超え

「消す」と「書く」を別のつまみに。NVIDIAの線形アテンションがMamba超え
X はてブ LINE Feedly

線形アテンション、という地味だけれど効く研究が、また一歩進みました。

NVIDIA の Ali Hatamizadeh・Yejin Choi・Jan Kautz の 3 氏が arXiv で公開した「Gated DeltaNet-2」は、AI が文章を読むときの「記憶のやりくり」を作り替える論文です。実装は GitHub(NVlabs/GatedDeltaNet-2)でもう公開されています。

ふだん私たちが使う ChatGPT や Claude は、内部で Transformer という仕組みを動かしています。この Transformer のアテンションは、読んだ文章を全部「付箋」として貼り続けるようなやり方で、文章が長くなるほど付箋が増え、メモリも計算量もふくらみます。線形アテンションは、その付箋の山を、サイズの決まった 1 冊のメモ帳に置き換える発想です。どれだけ長文を読んでもメモ帳は厚くならない。だから速いし軽い。要はこういうことですね。

スカラー 1 個に、消去と書き込みを背負わせていた

問題は、そのメモ帳をどう書き換えるかです。新しい情報が来たら、古い記述を少し消して、新しい記述を少し足す。前バージョンにあたる Gated DeltaNet は、この「どれだけ消すか」と「どれだけ書き込むか」を、たった 1 個のつまみ(専門的にはスカラーと呼びます)でまとめて決めていました。消すと書くが連動してしまうわけです。ホワイトボードでいうと、イレーサーの強さとペンの太さが 1 個のダイヤルでつながっている状態ですね。

チャネルごとに「消す」と「書く」を別のつまみにした

Gated DeltaNet-2 がやったのは、このつまみを 2 つに分けることです。古い内容を消す「消去ゲート」と、新しい内容を書き込む「書き込みゲート」を独立させ、しかもメモ帳の場所(チャネル)ごとに別々に効かせる。消したい場所はしっかり消し、残したい場所は触らない。書きたい場所にだけ書く。で、何が変わるかというと、似たような情報がいくつも入ってきても、混ざらずに仕分けできるようになります。

Mamba-3 まで並べた 1.3B モデルの成績

チームは 1.3B パラメータのモデルを 100B トークン(FineWeb-Edu)で学習し、Mamba-2・Mamba-3・前バージョンの Gated DeltaNet・KDA と比べました。言語モデリング、常識推論、検索のいずれでも最も良い成績だったとのこと。長い文章の中から 1 つの情報を拾い出す「干し草の山の針」テスト(RULER)でも、文脈が伸びても崩れにくく、複数の手がかりが競合する場面でとくに強かったと報告されています。ちなみに、これは 1.3B という比較的小さな規模での実験で、査読前のプレプリントです。大型モデルでも同じように効くかは、これからの検証待ちですね。

日本のユーザーや企業にとって、この手の「軽くする」研究は地味に効きます。長い社内文書を読ませる、長い会話を覚えさせる——そういう使い方ほど、いまは計算コストがネックになります。線形アテンションが実用の精度に届けば、長文を扱う AI が安く・速くなる方向に進む。私たちが毎日触る AI サービスの「料金」と「待ち時間」に、いずれ返ってくる話です。続報待ちですね。

arXiv: Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

みんなの反応

G
GPU貧乏エンジニア
(MLエンジニア・20代男性)

1.3B でこの結果なら、いちばん刺さるのは長文処理の GPU 代です。フルアテンションの KV キャッシュが伸び続ける地獄、そろそろ卒業したい。
ろんぶん先生
(AI研究者・30代男性)

消去と書き込みを 1 スカラーで縛っていたのを分ける、というのは言われれば当然なのに誰も詰めていなかった所。ただ 1.3B での比較なので、大規模での再現は見ておきたいです。
JK
JK勉強垢
(高校生・10代女性)

長い文章を読ませると遅くなるの、レポート要約で毎回感じてました。メモ帳の例えで、仕組みがちょっと分かった気がします。
長距離ドライバー
(長距離トラック運転手・50代男性)

正直、消すゲートとか書くゲートとかは難しい。でも AI が安く速くなる、それだけ分かれば十分です。運転の合間に音声で使ってるので。
データの掃除屋
(データエンジニア・30代男性)

似た情報が混ざらず仕分けできる、というところが地味に効きます。関連文書を大量に渡す検索用途で、取り違えが減ってくれると助かる。
X はてブ LINE Feedly