
線形アテンション、という地味だけれど効く研究が、また一歩進みました。
NVIDIA の Ali Hatamizadeh・Yejin Choi・Jan Kautz の 3 氏が arXiv で公開した「Gated DeltaNet-2」は、AI が文章を読むときの「記憶のやりくり」を作り替える論文です。実装は GitHub(NVlabs/GatedDeltaNet-2)でもう公開されています。
ふだん私たちが使う ChatGPT や Claude は、内部で Transformer という仕組みを動かしています。この Transformer のアテンションは、読んだ文章を全部「付箋」として貼り続けるようなやり方で、文章が長くなるほど付箋が増え、メモリも計算量もふくらみます。線形アテンションは、その付箋の山を、サイズの決まった 1 冊のメモ帳に置き換える発想です。どれだけ長文を読んでもメモ帳は厚くならない。だから速いし軽い。要はこういうことですね。
問題は、そのメモ帳をどう書き換えるかです。新しい情報が来たら、古い記述を少し消して、新しい記述を少し足す。前バージョンにあたる Gated DeltaNet は、この「どれだけ消すか」と「どれだけ書き込むか」を、たった 1 個のつまみ(専門的にはスカラーと呼びます)でまとめて決めていました。消すと書くが連動してしまうわけです。ホワイトボードでいうと、イレーサーの強さとペンの太さが 1 個のダイヤルでつながっている状態ですね。
Gated DeltaNet-2 がやったのは、このつまみを 2 つに分けることです。古い内容を消す「消去ゲート」と、新しい内容を書き込む「書き込みゲート」を独立させ、しかもメモ帳の場所(チャネル)ごとに別々に効かせる。消したい場所はしっかり消し、残したい場所は触らない。書きたい場所にだけ書く。で、何が変わるかというと、似たような情報がいくつも入ってきても、混ざらずに仕分けできるようになります。
チームは 1.3B パラメータのモデルを 100B トークン(FineWeb-Edu)で学習し、Mamba-2・Mamba-3・前バージョンの Gated DeltaNet・KDA と比べました。言語モデリング、常識推論、検索のいずれでも最も良い成績だったとのこと。長い文章の中から 1 つの情報を拾い出す「干し草の山の針」テスト(RULER)でも、文脈が伸びても崩れにくく、複数の手がかりが競合する場面でとくに強かったと報告されています。ちなみに、これは 1.3B という比較的小さな規模での実験で、査読前のプレプリントです。大型モデルでも同じように効くかは、これからの検証待ちですね。
日本のユーザーや企業にとって、この手の「軽くする」研究は地味に効きます。長い社内文書を読ませる、長い会話を覚えさせる——そういう使い方ほど、いまは計算コストがネックになります。線形アテンションが実用の精度に届けば、長文を扱う AI が安く・速くなる方向に進む。私たちが毎日触る AI サービスの「料金」と「待ち時間」に、いずれ返ってくる話です。続報待ちですね。
arXiv: Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention