
スマホの中で AI を動かす、という話、ずっと「重い・熱い・電池食う」の三重苦でした。Google がそこに別の通路を引いてきた、というのが今回の発表です。
LiteRT は、もともと TensorFlow Lite と呼ばれていたランタイムの後継。要するに、学習済みモデルをスマホやエッジ機器の上で軽く動かすための、Google 製のミニ実行環境です。今回の Developers Blog で、これを NPU(Neural Processing Unit)に直接乗せる、という前進が紹介されました。
ざっくり言うと、NPU は「AI 推論だけを専門にやる回路」です。スマホの SoC(チップ)に最近こっそり載っているやつ。Pixel の Tensor、iPhone の Neural Engine、Snapdragon の Hexagon NPU、あのへんが該当します。
これまで、スマホで AI を動かすときは CPU(汎用計算)か GPU(描画兼用)に投げるのが普通でした。動くは動くんですが、電池が一気に減るし、本体は熱くなるし、結果が遅い。今回の Google の説明では、Google Meet のセグメンテーションモデルで一定の電力フットプリントを保ったまま高品質化できたことや、Argmax Pro SDK の音声認識で GPU から NPU に移すと 2 倍超の高速化が出たことが紹介されています。ここに推論を引っ越せれば、要は「スマホがずっと AI を動かしていてもバッテリーが持つ」状態に近づきます。
ただ、これまでの障壁が、NPU を叩く API が各社バラバラだったことでした。Google の記事では、Google Tensor、MediaTek、Qualcomm Technologies の SoC をまたいだ検証例が出ています。アプリ側でベンダーごとの SDK を全部書き分けないと Android のシェアをカバーしにくい、という構造だったんですね。
LiteRT の今回の更新は、その「書き分け地獄」を吸収して、開発者から見たら LiteRT に投げれば、対応端末では裏で適切な NPU に降りていく という形にしようとしている、と読めます。
これ、地味に効くんですよ。たとえば写真アプリの画像補正や、ボイスメモの文字起こし、入力中のリアルタイム翻訳、こういう「ずっと裏で動いていてほしい AI」が、電池を気にせず常駐できる方向に向かう。Pixel だけ高速で他は遅い、という体験差が縮まる可能性もあります。
正直、これで「明日からスマホで巨大なフロンティアモデルがそのまま動く」みたいな話ではないです。Google が例に出しているのは、ビデオ会議の背景分離、MetaHuman 向けの顔アニメーション、オンデバイス音声認識、AI Edge Gallery の一部 Gemma モデルのような用途です。NPU が得意なのは、端末に合わせて最適化されたモデルの高速実行。画像処理モデル、音声モデル、小型のオンデバイス LLM あたりが現実的な乗せどころになります。
それから、NPU の性能差は端末ごとにかなり開きがある。最新フラッグシップに乗っている NPU と、3 年落ちの中華タブに入っている NPU では、できることがまったく違います。「LiteRT に投げれば全部速い」というよりは、「NPU がある端末でだけ、安く速く動く」という理解の方が誤読を避けられます。
日本の文脈で何が動くか、ふたつあります。
ひとつは、国内メーカーのアプリ側。家計簿、写真整理、健康記録、社内チャット、このあたりの「スマホで毎日触る系」のアプリで、AI 機能を載せたいけれどクラウド推論のコストが見合わない、というケースは多い。LiteRT で NPU に降ろせれば、推論料金ゼロでオンデバイス処理できる選択肢が現実的になります。プライバシー上、社外にデータを出したくない医療・介護のアプリにも効きます。
もうひとつは、ガジェット系の評価軸が変わること。これまで「NPU の TOPS(演算性能)」は数字だけが先行していて、実アプリで体感差を出しにくかった。LiteRT 経由で叩けるアプリが増えれば、NPU の有無・世代差が「ふだん使い」の動作で見える化されます。中古市場でも「NPU 世代」が値札に効いてくる、ぐらいの変化はあるかもしれません。
スマホで毎日触るアプリの中に、AI 機能が「裏で常駐していて、電池を食わない」状態でじわじわ増えていく時代に、もう一歩近づきました。続報待ちですね。
情報元
– Google Developers Blog — Building real-world on-device AI with LiteRT and NPU
– LiteRT 公式ドキュメント(英語)
– Qualcomm Hexagon NPU(英語)