
Google DeepMindは2026年4月2日、新たなオープンモデルシリーズ「Gemma 4」を発表した。
特徴的なのはエッジデバイスへの対応だ。LiteRT-LMを使用した場合、1.5GB未満のRAMでの動作を実現するとしており、Raspberry Pi 5における実測では133トークン/秒を記録したとしている。コンテキスト長は128,000トークン、140以上の言語に対応する。ライセンスはApache 2.0で、商用利用・改変・再配布が自由に行える。
設計目標にはマルチステップ計画と自律エージェントワークフローが明記されており、クラウドAPIを介さず、デバイス単体でエージェントを動作させることを想定した作りとなっている。
エッジ向けオープンモデルはMicrosoftのPhi、MetaのLlama小型版、Mistral Miniなど競合が多い。「エージェント設計・超低メモリ動作・Apache 2.0ライセンス」の組み合わせがどこまで普及するか、エコシステムの形成が今後の焦点となる。
情報元:Google DeepMind Blog / Google Developers Blog
エージェント職人(AIエージェント開発者・20代)
ローカルでエージェントが走る。これでクラウドAPI依存から抜けられる。MCPで繋げばオフライン完結のエージェントが作れる。
GPU貧乏エンジニア(MLエンジニア・20代)
Pi 5持ってるから試す。133tok/sって実用ラインだろ。
ろんぶん先生(AI研究者・30代)
エッジで128kコンテキストを保持するメモリ管理の実装が気になる。アーキテクチャレベルで何が変わったのか、ペーパーを確認したい。
シリコンバレーの人(海外在住エンジニア・30代)
こっちのhardware hackerコミュニティでもGemma 4 on Pi 5がすでに話題になってる。試したらぜひ共有して。
DXおじさん(大企業DX推進室長・50代)
Apache 2.0は稟議が通しやすい。社内展開の検討がしやすくなりますね。