🕛 2026.6.11 18:19 文：かみくだきりく

Google、文章を『まとめて磨く』DiffusionGemma公開。4倍速で家庭用GPUでも動く

文章を頭から一文字ずつ書かない AI が、手元で動くサイズで出てきました。

Google DeepMind が 6 月 10 日、実験的なオープンモデル「DiffusionGemma」を公式ブログで公開しました。画像生成でおなじみの「拡散モデル」の考え方をテキストに持ち込んだもので、ライセンスは Apache 2.0。商用利用もできる、誰でも触れるモデルとして出てきたのが今回のポイントです。

一文字ずつ書くのをやめて、256トークンを並べて磨く

いま主流の LLM（ChatGPT も Claude も Gemini も）は「自己回帰」という方式で、文章を前から一語ずつ順番に生成します。前の単語が決まらないと次が書けない、いわば一筆書きです。

DiffusionGemma はここが根本から違っていて、まずノイズだらけの「文章のもや」を 256 トークンぶん一気に置き、それを何度も推敲して全体を同時に磨き上げます。ざっくり言うと、一筆書きの清書ではなく、ラフな下書きを全体眺めながら直していく書き方ですね。各トークンがブロック内の他の全トークンを参照しながら決まるので、文章の途中の穴埋めや、コードの欠けた部分の補完みたいな「前からだけでは書きにくい」仕事が得意だと Google は説明しています。

毎秒1,000トークンと、18GBという現実的な数字

速度の数字が出ています。自己回帰方式と比べて最大 4 倍速く、H100 1 基で毎秒 1,000 トークン超、ゲーミング GPU の RTX 5090 でも 700 トークン超とのこと。モデルは 26B の MoE（混合専門家）構成で、推論時に動くのは約 3.8B ぶんだけ。量子化すれば 18GB 級の VRAM に収まり、vLLM・Transformers・MLX・Unsloth が公開初日から対応しています（ちなみに入力はテキストだけでなく画像・動画も受け付けて、出力はテキストです）。

ローカル LLM を触っている身として、この 18GB という線引きはかなり現実的で、日本でも RTX 4090/5090 クラスや、メモリ多めの Mac を持っている人なら手元で試せる射程に入ってきます。クラウドの API を待たずに、毎秒数百トークンの生成が自分の机の上で動く。この体感は一度味わうと戻れないやつです。

『実験的』の但し書きは、まだ外れていない

冷静に見ておきたい点もあります。Google 自身が「experimental」と明記している通り、拡散型のテキスト生成は品質面の評価がまだ発展途上で、長文の一貫性や事実の正確さで自己回帰の主力モデルに並ぶかは、これから検証が進む段階です。2025 年に研究発表された Gemini Diffusion の路線をオープンモデルに降ろしてきた、いわば公開実験という位置づけですね。

それでも、何が変わるかは割とはっきりしています。コード補完や文章の推敲・穴埋めのような「速さと小回り」が効く用途で、ローカルで動く高速な選択肢が一つ増えました。AI の文章の書き方そのものに、一筆書き以外の流派が育つかどうか。ここから先は、触った人の数が決めていく話だと思います。まあ、急がなくてもいいんですけど、これは週末に試したいやつです。

情報元: DiffusionGemma: 4x faster text generation (Google公式ブログ)

みんなの反応

ぬ

ぬるぽ
（システムエンジニア・30代男性）

自己回帰じゃないLLMがApache 2.0で来たのは普通に事件では。コード穴埋めが得意というのは理にかなってて、補完って前後の文脈両方見たい処理なんですよね。vLLM初日対応なら検証も楽だし、26B MoEでアクティブ3.8Bという構成も推論コスト的に好感。週末にベンチ回します。

え

えかきのたまご
（フリーランスイラストレーター・20代女性）

画像生成AIの「ノイズから絵が浮かび上がる」あの仕組みが文章でも動くんだ……というのが一番びっくりでした。ラフを全体見ながら直していく描き方、って説明がまさに私の作業工程そのもので、一発清書より直せる方が強いのはお絵描きも文章も同じなのかも。

筋

元プロの筋トレ屋
（スポーツジム経営／元プロ野球選手・40代男性）

難しい仕組みはさておき、下書きを何度も直して仕上げるってのはフォーム矯正と同じ理屈だな。最初から完璧なスイングなんてなくて、全体を見ながら少しずつ整える。一文字ずつしか書けないより、そっちの方が自然に思えるよ。4倍速ってのも単純にすごい。

JK勉強垢
（高校2年生・10代女性）

小論文って先に全体の骨組み書いてから埋めてくと速いんだけど、AIもそっち方式になったってことだよね？一筆書きとラフ推敲の例えめっちゃわかりやすかった。ゲーミングPCで動くサイズっていうのも、部活のPC好きの先輩がざわつきそう。

パ

パン屋のおかみ
（ベーカリー店主・40代女性）

パン生地も一気に形を作ってから全体を整えるので、一文字ずつより全体を見て直す方が早い、というのは妙に納得しました。お店のポップやSNSの文章を直してもらうのに、速くて手元で動くなら電気代だけで済むのかしら。そういう現実的なところが気になります。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

Google、文章を『まとめて磨く』DiffusionGemma公開。4倍速で家庭用GPUでも動く

一文字ずつ書くのをやめて、256トークンを並べて磨く

毎秒1,000トークンと、18GBという現実的な数字

『実験的』の但し書きは、まだ外れていない

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事