
LiteRT というキーワードが、ついに本気でスマホの NPU を叩きにいく段階に入りました。Google Developers Blog が「Building real-world on-device AI with LiteRT and NPU」(2026-04-23)を出しています。これ、実物見ると印象変わるやつです。
LiteRT、元の TensorFlow Lite が名前を変えたもの──という経緯を知っている人は多いはず。で、気になるのは「Neural Processing Unit(NPU)をちゃんと使える」と公式が明言した点です。プロダクションレディなフレームワークとして、モバイル開発者が NPU の性能をそのまま引き出せる、と Google が書いています。
で、気になるスペックなんですが──と言いたいところですが、公式発表に具体の TOPS 数値はまだ載っていないので、ここはスペック比較ではなく設計思想の話から。
いまのスマホって、CPU・GPU・NPU の 3 つの処理単位が同じチップに乗っています。問題は、NPU がすごいのに、ほとんどのアプリが CPU か GPU でモデルを動かしていること。Android の開発者の間でも「NPU を実際に叩ける開発フレームワークが限られていた」問題はずっとあって、LiteRT の今回の更新は、ここに風穴を開けにいった形です。
要するに、「NPU を使う」と何が変わるのか。公式が出している事例でいうと、Google Meet は従来より 25 倍大きい segmentation model を推論速度を落とさず回し、Epic の Live Link Face (Beta) は LiteRT on NPU で up to 30 FPS の MetaHuman 顔アニメーションを実現した、としています。ここまで来ると、単なるベンチの話ではなく、体感が変わるやつです。
ここ 1 年、ローカル LLM のメモリ食いには泣かされてきました。3B・7B のモデルをスマホに載せたら、RAM がごっそり持っていかれて、他のアプリが落ちる。メモリも速度も NPU 側に寄せられれば、ここの話が一気に楽になる可能性がある。
ちなみに、エッジ AI の家庭応用って、ここ数年「いつ来るんだ」って言われ続けてきました。家電・ロボ掃除・ドアホン・見守りカメラ──クラウドに投げずに端末側で判断する方が、プライバシー的にも反応速度的にも有利。LiteRT × NPU の組み合わせは、このジャンルの開発者にとって一番のごはんです。
Google の今回の記事は、NPU を使ったオンデバイス AI のユースケースを一通り並べています。スピーチから画像処理、LLM 推論まで、モバイルで動かしたいやつは全部狙い目、というスタンス。
狙い目は、こんなところだと思います。
どれも「電波を介さない」がキーワードで、NPU を本気で使えるなら、体感のレスポンスが変わるタイプの機能です。即レビューしたい。
日本で流通するスマホの多くは、Qualcomm と MediaTek のチップで、どちらも NPU を積んでいます。ただ開発者側がそれを叩きにいく入り口が、これまでバラバラだった。LiteRT の今回の改定で、Android アプリの開発者がひとつの窓口で NPU にアクセスできる方向に進む、と理解しています。
Pixel、Galaxy、Xperia、AQUOS──それぞれの端末で、同じ API を叩いて性能差が出るか揃うかは、実機で試すしかない。ここは今後のベンチが楽しみなところです。
NPU は積んでいるだけでは意味がない。LiteRT のような汎用フレームで叩けて、やっと活きる。Google が今回、SDK の入り口を整えに来たのは、Android 陣営全体にとって追い風です。
手持ちの Pixel で近日試します。続報入ったら書きます。
Google Developers Blog — Building real-world on-device AI with LiteRT and NPU