🕛 2026.6.11 19:14 文:ナナまどか

Googleの『Gemma 4 12B』、音も画像も『直接』読む新設計。16GBノートに収まる

Googleの『Gemma 4 12B』、音も画像も『直接』読む新設計。16GBノートに収まる
X はてブ LINE Feedly

同時通訳のブースを取り払って、相手の声をそのまま聞く。そんな設計のAIが、ふつうのノートPCに収まるサイズで出てきました。

Google DeepMindが6月3日、公式ブログで軽量オープンモデル「Gemma 4 12B」を発表しました。ライセンスはApache 2.0で商用利用も可能。音声をネイティブに(変換役を挟まずに)受け取れる初の中型Gemmaモデルだと説明されています。Gemma 4系はすでに累計1億5,000万ダウンロードを超えているそうで、その真ん中のサイズを埋める一本です。

『通訳』を全部外した、という思い切り

これまでのマルチモーダルAIは、画像には画像専用、音声には音声専用の「エンコーダ」という前処理装置を持っていました。いわば専属の通訳が、絵や音を言語モデルにわかる言葉へ翻訳してから渡す仕組みです。確実ではあるけれど、通訳を経由するぶん時間もメモリも食う。

Gemma 4 12Bは、この通訳をまるごと外しました。画像は一度の行列計算程度の軽い変換だけで、音声にいたっては生の信号をそのままテキストと同じ「トークンの空間」に投げ込み、モデル本体が直接読み解くとのこと。字幕や吹き替えを介さず、原語のまま映画を観るような設計ですね。少なくとも公式ブログ本文で明記されているのは、vision と audio の入力をひとつの本体で扱う構成です。

ふと考えてしまうんですが、これは「分業を増やす」方向に進んできたAIの設計が、「ひとつの頭で全部聞く」方向へ折り返した瞬間なのかもしれません。

26B級に迫る性能を、半分以下のメモリで

数字を見ておきます。Googleによれば、性能は上位モデルである26BのMoE(混合専門家)構成に迫りつつ、必要なメモリの総量は半分以下。16GBのVRAMまたはユニファイドメモリがあればローカルで動くとのことで、メモリ16GBのMacBookや、ミドルクラスのGPUを積んだノートが射程に入ります。LM StudioやOllama、llama.cpp、MLX、vLLMといった定番ツールが初日から対応し、応答を速くするMulti-Token Predictionのドラフターも同梱されています。

日本のユーザーにとって、この「手元で完結する」は思った以上に効く話です。社外秘の会議録音、生徒の声が入った授業の録画、未発表の作品データ——クラウドのAIに上げること自体がためらわれる素材が、この国の現場にはたくさんあります。回線の細い地方や、規程の厳しい企業・学校でも、ノートPCの中だけでAIに「見せて」「聞かせて」相談できるなら、使える場面はぐっと広がります。

クラウドに送らない、という静かな選択肢

限界も見ておきたいところです。性能は26B級に「迫る」のであって、超えたわけではありません。クラウドの最上位モデルと比べれば差は歴然ですし、エンコーダなしの音声・動画理解がどこまで実用に堪えるかは、これから使い手が確かめていく段階です。光と影の両方を見ておきたい、まだ始まったばかりの設計思想だと思います。

それでも、私たちの側で変わることははっきりしています。「AIを使うこと」と「データをどこかに預けること」が、これまでのようにセットでなくなっていく。録音の文字起こしも、語学の練習も、創作の下読みも、誰にも渡さず自分の机の上で済ませる選択肢が、16GBという現実的な線で手に入りました。AIとの付き合い方の主導権が少しだけこちらに戻ってくる——どこに立って見るかで、景色がまるで変わるニュースです。

情報元: Introducing Gemma 4 12B: a unified, encoder-free multimodal model (Google公式ブログ)

みんなの反応

えかきのたまご
(フリーランスイラストレーター・20代女性)

ラフ動画や下描きをクラウドに上げずにAIに見てもらえるの、正直ありがたいです。未発表の絵って流出が一番怖いので。16GBのMacBookで動くなら、納品前のチェック係としてアトリエに常駐させたいくらい。
みさきの美容室
(美容師・SNSインフルエンサー・20代女性)

サロンで撮ったヘアアレンジ動画、投稿前に手元のAIにチェックしてもらえたら最高かも。お客様が映ってる素材って外のサービスには上げにくいから、自分のPCの中で完結するのは地味に安心です。
J
JK勉強垢
(高校2年生・10代女性)

授業の録音をそのまま聞いて要点まとめてくれるってことだよね?通訳を外して直接聞くって例え、テスト前の私に効きすぎる。家のノートPCが16GBだから、いけるのか今度弟と調べてみる。
島ぐらしCTO
(ゲストハウス経営/元IT企業CTO・60代男性)

エンコーダを外して本体に直接食わせる発想は、元設計屋として見ると実に潔い。部品が減れば壊れる場所も減るんですよ。うちの島は回線が細いので、クラウドに頼らず手元で動くAIはそれだけで価値があります。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly