
文章を頭から一文字ずつ書かない AI が、手元で動くサイズで出てきました。
Google DeepMind が 6 月 10 日、実験的なオープンモデル「DiffusionGemma」を公式ブログで公開しました。画像生成でおなじみの「拡散モデル」の考え方をテキストに持ち込んだもので、ライセンスは Apache 2.0。商用利用もできる、誰でも触れるモデルとして出てきたのが今回のポイントです。
いま主流の LLM(ChatGPT も Claude も Gemini も)は「自己回帰」という方式で、文章を前から一語ずつ順番に生成します。前の単語が決まらないと次が書けない、いわば一筆書きです。
DiffusionGemma はここが根本から違っていて、まずノイズだらけの「文章のもや」を 256 トークンぶん一気に置き、それを何度も推敲して全体を同時に磨き上げます。ざっくり言うと、一筆書きの清書ではなく、ラフな下書きを全体眺めながら直していく書き方ですね。各トークンがブロック内の他の全トークンを参照しながら決まるので、文章の途中の穴埋めや、コードの欠けた部分の補完みたいな「前からだけでは書きにくい」仕事が得意だと Google は説明しています。
速度の数字が出ています。自己回帰方式と比べて最大 4 倍速く、H100 1 基で毎秒 1,000 トークン超、ゲーミング GPU の RTX 5090 でも 700 トークン超とのこと。モデルは 26B の MoE(混合専門家)構成で、推論時に動くのは約 3.8B ぶんだけ。量子化すれば 18GB 級の VRAM に収まり、vLLM・Transformers・MLX・Unsloth が公開初日から対応しています(ちなみに入力はテキストだけでなく画像・動画も受け付けて、出力はテキストです)。
ローカル LLM を触っている身として、この 18GB という線引きはかなり現実的で、日本でも RTX 4090/5090 クラスや、メモリ多めの Mac を持っている人なら手元で試せる射程に入ってきます。クラウドの API を待たずに、毎秒数百トークンの生成が自分の机の上で動く。この体感は一度味わうと戻れないやつです。
冷静に見ておきたい点もあります。Google 自身が「experimental」と明記している通り、拡散型のテキスト生成は品質面の評価がまだ発展途上で、長文の一貫性や事実の正確さで自己回帰の主力モデルに並ぶかは、これから検証が進む段階です。2025 年に研究発表された Gemini Diffusion の路線をオープンモデルに降ろしてきた、いわば公開実験という位置づけですね。
それでも、何が変わるかは割とはっきりしています。コード補完や文章の推敲・穴埋めのような「速さと小回り」が効く用途で、ローカルで動く高速な選択肢が一つ増えました。AI の文章の書き方そのものに、一筆書き以外の流派が育つかどうか。ここから先は、触った人の数が決めていく話だと思います。まあ、急がなくてもいいんですけど、これは週末に試したいやつです。
情報元: DiffusionGemma: 4x faster text generation (Google公式ブログ)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。