
AIに「この画面、あとはやっといて」と任せられるかどうか。エージェントの勝負はそこに来ている。Google が6月24日、画面を操作する「computer use(コンピュータ操作)」を、主力の軽量モデル Gemini 3.5 Flash にネイティブ統合したと公式ブログで明らかにした。
これまで、画面の認識・クリック・文字入力・スクロールといった操作は、Gemini 2.5 専用の独立モデルを別に呼ぶ必要があった。今回はそれを主力 Flash の組み込みツールにした。Gemini API や Gemini Enterprise Agent Platform 経由で使える。要するに、特別な機材を借りる話だったものが、標準装備になった、ということ。
仕組みは、人間がパソコンを触る動きをそのままなぞる。AI が画面のスクリーンショットを見て、「ここを押す」「ここに入力する」「下にスクロールする」を自分で判断して実行する。これまでとの違いは、その担当を専門の運転代行に毎回頼んでいたのが、最初から運転できる本体に変わった点だ。開発側から見れば、操作用と思考用で二つのモデルをつなぐ手間が消える。
ここがポイントで、土台が主力の Flash というのが効く。Flash は速くて安いことを売りにしたモデルだ。そこに画面操作が乗ると、エージェントを動かす1回あたりのコストが下がる。数字を見ようと言いたいところだが、価格の詳細は今回まだ出ていない。ただ「重いモデルでしか出来なかった操作を、軽いモデルに降ろした」という方向性は、コストの話だと読んでいい。
公式は、ブラウザ・モバイル・デスクトップを横断して操作するエージェントを構築できるとしている。たとえば、Web の管理画面を開いて数字を転記し、社内アプリに入力し、結果をスマホ側で確認する——こういう、画面をまたぐ作業を一気通貫でやらせる発想だ。日本の現場でいえば、これは RPA(定型作業の自動化ツール)が長年やってきた領域に、生成 AI がより柔軟なやり方で踏み込んできた、ということになる。決まった画面しか動かせなかった従来の自動化と違い、画面が多少変わっても「見て」対応できる余地がある。
とはいえ、過信は禁物だ。画面操作系のエージェントは、押し間違いや、意図しない操作の連鎖というリスクを常に抱える。Flash は軽量モデルゆえ、複雑で長い手順になるほど取りこぼしも出やすい。重要な操作はログを残し、人が最後に確認する運用が現実的だろう。正直、本番の基幹業務をいきなり丸投げできる段階だとは思わない。
それでも、勝ち筋ははっきりしている。画面操作を主力モデルの標準機能にした以上、ブラウザ自動化やテスト、定型事務の代行を組む開発のハードルは確実に下がる。日本企業が抱える事務作業の山は、ここから数年で「AI に画面ごと任せる」前提に組み替わっていく。結局のところ、エージェントの普及を決めるのは賢さより安さと手軽さだ。Google は今回、その両方を一段引き下げてきた。
情報元: Introducing computer use in Gemini 3.5 Flash(Google)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。