
同時通訳のブースを取り払って、相手の声をそのまま聞く。そんな設計のAIが、ふつうのノートPCに収まるサイズで出てきました。
Google DeepMindが6月3日、公式ブログで軽量オープンモデル「Gemma 4 12B」を発表しました。ライセンスはApache 2.0で商用利用も可能。音声をネイティブに(変換役を挟まずに)受け取れる初の中型Gemmaモデルだと説明されています。Gemma 4系はすでに累計1億5,000万ダウンロードを超えているそうで、その真ん中のサイズを埋める一本です。
これまでのマルチモーダルAIは、画像には画像専用、音声には音声専用の「エンコーダ」という前処理装置を持っていました。いわば専属の通訳が、絵や音を言語モデルにわかる言葉へ翻訳してから渡す仕組みです。確実ではあるけれど、通訳を経由するぶん時間もメモリも食う。
Gemma 4 12Bは、この通訳をまるごと外しました。画像は一度の行列計算程度の軽い変換だけで、音声にいたっては生の信号をそのままテキストと同じ「トークンの空間」に投げ込み、モデル本体が直接読み解くとのこと。字幕や吹き替えを介さず、原語のまま映画を観るような設計ですね。少なくとも公式ブログ本文で明記されているのは、vision と audio の入力をひとつの本体で扱う構成です。
ふと考えてしまうんですが、これは「分業を増やす」方向に進んできたAIの設計が、「ひとつの頭で全部聞く」方向へ折り返した瞬間なのかもしれません。
数字を見ておきます。Googleによれば、性能は上位モデルである26BのMoE(混合専門家)構成に迫りつつ、必要なメモリの総量は半分以下。16GBのVRAMまたはユニファイドメモリがあればローカルで動くとのことで、メモリ16GBのMacBookや、ミドルクラスのGPUを積んだノートが射程に入ります。LM StudioやOllama、llama.cpp、MLX、vLLMといった定番ツールが初日から対応し、応答を速くするMulti-Token Predictionのドラフターも同梱されています。
日本のユーザーにとって、この「手元で完結する」は思った以上に効く話です。社外秘の会議録音、生徒の声が入った授業の録画、未発表の作品データ——クラウドのAIに上げること自体がためらわれる素材が、この国の現場にはたくさんあります。回線の細い地方や、規程の厳しい企業・学校でも、ノートPCの中だけでAIに「見せて」「聞かせて」相談できるなら、使える場面はぐっと広がります。
限界も見ておきたいところです。性能は26B級に「迫る」のであって、超えたわけではありません。クラウドの最上位モデルと比べれば差は歴然ですし、エンコーダなしの音声・動画理解がどこまで実用に堪えるかは、これから使い手が確かめていく段階です。光と影の両方を見ておきたい、まだ始まったばかりの設計思想だと思います。
それでも、私たちの側で変わることははっきりしています。「AIを使うこと」と「データをどこかに預けること」が、これまでのようにセットでなくなっていく。録音の文字起こしも、語学の練習も、創作の下読みも、誰にも渡さず自分の机の上で済ませる選択肢が、16GBという現実的な線で手に入りました。AIとの付き合い方の主導権が少しだけこちらに戻ってくる——どこに立って見るかで、景色がまるで変わるニュースです。
情報元: Introducing Gemma 4 12B: a unified, encoder-free multimodal model (Google公式ブログ)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。