🕛 2026.5.13 21:47 文:ナナまどか

何恺明、初めて言語モデルを書く。GPT流の「次の単語予測」を捨てた拡散LM「ELF」

何恺明、初めて言語モデルを書く。GPT流の「次の単語予測」を捨てた拡散LM「ELF」
X はてブ LINE Feedly

GPT を作った人たちと、別の道を歩いてきた研究者がいます。

そのひとり、Kaiming He(何恺明)がはじめて「言語モデル」を出した、というニュースが arXiv に出ました。論文タイトルは ELF: Embedded Language Flows。arXiv での投稿日は 2026 年 5 月 11 日。著者は Keya Hu、Linlu Qiu、Yiyang Lu、Hanhong Zhao、Tianhong Li、Yoon Kim、Jacob Andreas、そして Kaiming He。最終著者という、いわゆる「研究室の責任者」のポジションに名前が並んでいます。

He はもともと、画像認識のブレイクスルー「ResNet」(深層ネットワークに残差接続を入れて学習を可能にした設計)の主著者として知られる人です。画像生成の業界では「Diffusion」(拡散モデル、画像をノイズから少しずつ復元していく仕組み)の発展を支えてきた中心人物のひとり。その彼が、はじめて言語モデルを書いた。ふと考えてしまうのは、なぜ今、なぜ言語だったのか、ということです。

なぜ「もうひとつの言語モデル」が必要だったのか

ChatGPT や Claude を支えているのは、自己回帰(autoregressive)と呼ばれる方式です。文章を左から右へ、ひとつずつ次の単語を予測していく、という素朴で強力な仕組み。GPT の名前にある “Generative Pre-trained Transformer” の “Generative” は、この「次の単語予測」を意味しています。

これに対して、画像の世界で猛威を振るってきたのが拡散モデル。ぼんやりとしたノイズから出発して、少しずつディテールを足し、最後に絵が立ち現れる。Stable Diffusion や Midjourney の中身は、この発想です。

問題はここで、画像で大成功した拡散モデルを「言語」に持ち込もうとすると、ぱっと壁にぶつかります。画像のピクセル値は連続した数字ですが、言葉は離散的なトークン(あらかじめ決められた語彙の番号)でできている。連続的に「少しずつ滑らかにずらしていく」という拡散の発想を、そのままトークンに当てはめるのは難しい。

研究者たちはここで分岐しました。離散派は、トークン空間のままで拡散を回す(MDLM、LLaDA、Dream 7B などがこの系統)。連続派は、トークンを一度ベクトル(埋め込み)に翻訳してから連続空間で拡散を扱う(Diffusion-LM や CDCD などがこちら)。これまで主導権を握ってきたのは、離散派でした。理由は単純で、「言葉はそもそも離散なのだから、離散のままで扱うのが筋ではないか」という常識があったから。

He のチームが今回の論文で正面から疑ったのは、その常識のほうです。

仕組みをやさしく — ELF が変えた 1 か所

ELF の発想は、ひとことで言うと「最後の最後まで連続空間で粘って、本当に最後に一度だけ言葉に戻す」。

少しイメージで言うと、こうです。粘土細工で「猫の彫像」を作るとき、いきなり「これは耳」「ここは目」と部品を組み立てるのではなく、まずは粘土の塊全体をぼんやり「猫っぽいかたまり」に近づけていく。曲面のニュアンスをずっと連続的に整え続ける。完成の手前で、ようやく「耳」「目」「ひげ」と細部を切り出していく。

これまでの連続派は、途中の段階で何度も「これは『犬』に近い?『猫』に近い?」と語彙表に照らし合わせて確認する作業を挟んでいました。途中で離散表現に寄せるたびに、せっかくの連続性が断ち切られていた。ELF は、その途中の確認作業を捨てます。最後の 1 ステップで一気に「ことば」へ翻訳する。

技術面で 1 つだけ補足しておくと、ELF は x-prediction と呼ばれる手法を採用しています。多くの拡散モデルは「ノイズをどう動かすか」(速度場 v)を学習しますが、ELF は「ノイズを取り除いたあとのきれいな埋め込み x」を直接予測する。He チームが半年前に「Back to Basics: Let Denoising Generative Models Denoise」で提案していた、シンプルさを取り戻す方向性の延長線上にあります。

埋め込みを担う「翻訳器」には T5 という既存の事前学習エンコーダを借りてきて、推論時は使い捨てる。デコーダ(最後にことばへ戻す部分)も、ノイズ除去をする本体と同じネットワークが二役を演じる。モデルの数を増やさずに、設計を素直に保つ。論文の構成は、力業ではなく整理整頓のような美しさがあります。

いまの実力と限界

数字を並べます。公式 GitHub README で確認できるのは、ELF-B が 105M パラメータで、OpenWebText において 32 sampling steps 時に Gen. PPL 24.1 を記録していることです。

「Generative Perplexity」は、生成した文章を別の強力な言語モデルに「これ、人間が書いたものに見える?」と採点させたときの指標。値が小さいほど、出力が自然で、いわゆる「AI 臭」が薄い、と理解できます。

比較として言えるのは、論文と公式 README が、ELF-B を離散・連続の既存拡散言語モデル群より強い位置に置いていることです。条件付き生成タスクである WMT14(機械翻訳)と XSum(要約)でも結果を出していて、公式 README では ELF-B の目安として WMT14 De-En で BLEU 26.4、XSum で ROUGE-1/2/L が 36.0 / 12.2 / 27.8 と示されています。

ただし、ここで気をつけたいのは ELF が 105M パラメータ規模の研究であることです。Claude や GPT が数千億パラメータの世界で振る舞っているのに比べると、規模はまだ「小さな実験室」。Llama や Qwen と直接比較したベンチマークは、本論文の主結果ではありません。「拡散言語モデルの内部競争に勝った」という意味のニュースで、「自己回帰モデルを置き換えた」というニュースではない、というのが正確な読み方です。

論文自身も、生成品質・サンプリング効率・学習コストの 3 つで強い trade-off を実現した、と控えめに締めくくっています。

半年・1 年・3 年で、どこまで景色が変わるか

ここから先は答えを急がずに、いくつか問いを置いておきます。

半年単位で起こりそうなのは、拡散言語モデル研究の重心がもう少し連続派へ寄ることです。ELF が示したのは、「言葉は離散だから離散で扱う」という常識が、必ずしも最適ではないかもしれない、ということ。He、Yoon Kim、Jacob Andreas の名前が並んだ時点で、研究コミュニティの注目はかなり集まりやすいはずです。

1 年単位だと、もう少し大きなパラメータ規模で再現される可能性があります。105M で勝ったから、1B・10B でも勝てるとは限らないのが ML の難しいところ。ただ、「サンプリングが速い」「学習データが少なくて済む」という ELF の特徴は、商用化を考える企業からは魅力的に映る組み合わせです。

3 年先になると、「拡散言語モデル」という名前そのものが、ニッチではなくなっているかもしれません。光と影の両方を見ておきたいのは、自己回帰モデルが現時点で築いてきた指示追従・Tool use・長文脈推論の蓄積を、拡散派が同じ水準で再現できるか、という点です。ここの埋め合わせができるかどうかで、「並走」になるのか「置換」になるのかが分かれます。

だから何が変わるの?

日本の読者の側に立って言うと、いますぐ Claude や ChatGPT を使うときの体験は変わりません。Magic Pointer のように、明日から手元で動く話ではない。

ただ、ニュースの読み方は変わります。これからしばらく、「拡散ベース言語モデル」「サンプリング数十ステップで動く LLM」「埋め込み空間で動く言語生成」というキーワードがちらほら登場するはずです。そのとき思い出してほしいのは、Kaiming He が今回開けた窓のことです。言葉は離散だが、それを生み出す思考の途中までは、連続のままでいい——その発想の転換が、今後の言語モデルの土台を、もう一枚下から支え直しはじめている、と言える研究です。

答えを急がずに、続報を待ちます。

みんなの反応

ろんぶん先生
(AI研究者・大学准教授・30代男性)

x-prediction とエンコーダ使い捨て構成の組み合わせは、設計としてエレガント。Yoon Kim・Andreas のラボが Kaiming He と組んだのは、ICML/NeurIPS の引用を一気に動かしそうな組み合わせです
G
GPU貧乏エンジニア
(MLエンジニア・20代男性)

105M・32 ステップでこの数字は正直うらやましい。研究室レベルで再現実験を回せるサイズ感なのがうれしい。週末にコードを触ってみます
社会学D3
(大学院生・社会学専攻・20代女性)

『言葉は離散だから離散で扱う』という前提を疑う発想、社会学の質的研究にも通じるものがあると思いました。意味は本来連続的なのに、私たちが文字に落とす瞬間だけ離散化されている、という見方は新鮮です
安全第一マン
(AIセーフティ研究者・40代男性)

連続空間で推論が進む拡散 LM は、自己回帰モデルとは違う種類のジェイルブレイク/プロンプト注入耐性を持つ可能性があります。安全性側のベンチマーク再評価が必要になる予感
ご隠居さん
(元落語家・60代男性)

落語の稽古は、頭の中でぼんやり噺の流れを浮かべて、最後に口で言葉にする。AI も似たような考え方を始めたんですなあ。これはちょっと、人間の喋りに近づいてきた気がしますよ

情報元
arXiv 2605.10938 — ELF: Embedded Language Flows(英語)
GitHub — lillian039/ELF(official implementation, 英語)

X はてブ LINE Feedly