🕛 2026.6.25 20:45 文:ズバッとショウ

AIが自分で画面を操作する。Geminiが『computer use』を主力モデルに標準搭載した意味

AIが自分で画面を操作する。Geminiが『computer use』を主力モデルに標準搭載した意味
X はてブ LINE Feedly

AIに「この画面、あとはやっといて」と任せられるかどうか。エージェントの勝負はそこに来ている。Google が6月24日、画面を操作する「computer use(コンピュータ操作)」を、主力の軽量モデル Gemini 3.5 Flash にネイティブ統合したと公式ブログで明らかにした。

これまで、画面の認識・クリック・文字入力・スクロールといった操作は、Gemini 2.5 専用の独立モデルを別に呼ぶ必要があった。今回はそれを主力 Flash の組み込みツールにした。Gemini API や Gemini Enterprise Agent Platform 経由で使える。要するに、特別な機材を借りる話だったものが、標準装備になった、ということ。

「画面を見て動く」を、わざわざ別モデルに頼まなくていい

仕組みは、人間がパソコンを触る動きをそのままなぞる。AI が画面のスクリーンショットを見て、「ここを押す」「ここに入力する」「下にスクロールする」を自分で判断して実行する。これまでとの違いは、その担当を専門の運転代行に毎回頼んでいたのが、最初から運転できる本体に変わった点だ。開発側から見れば、操作用と思考用で二つのモデルをつなぐ手間が消える。

ここがポイントで、土台が主力の Flash というのが効く。Flash は速くて安いことを売りにしたモデルだ。そこに画面操作が乗ると、エージェントを動かす1回あたりのコストが下がる。数字を見ようと言いたいところだが、価格の詳細は今回まだ出ていない。ただ「重いモデルでしか出来なかった操作を、軽いモデルに降ろした」という方向性は、コストの話だと読んでいい。

ブラウザもスマホもデスクトップも、ひとつのエージェントで

公式は、ブラウザ・モバイル・デスクトップを横断して操作するエージェントを構築できるとしている。たとえば、Web の管理画面を開いて数字を転記し、社内アプリに入力し、結果をスマホ側で確認する——こういう、画面をまたぐ作業を一気通貫でやらせる発想だ。日本の現場でいえば、これは RPA(定型作業の自動化ツール)が長年やってきた領域に、生成 AI がより柔軟なやり方で踏み込んできた、ということになる。決まった画面しか動かせなかった従来の自動化と違い、画面が多少変わっても「見て」対応できる余地がある。

限界は、まだ「任せきり」にできないこと

とはいえ、過信は禁物だ。画面操作系のエージェントは、押し間違いや、意図しない操作の連鎖というリスクを常に抱える。Flash は軽量モデルゆえ、複雑で長い手順になるほど取りこぼしも出やすい。重要な操作はログを残し、人が最後に確認する運用が現実的だろう。正直、本番の基幹業務をいきなり丸投げできる段階だとは思わない。

それでも、勝ち筋ははっきりしている。画面操作を主力モデルの標準機能にした以上、ブラウザ自動化やテスト、定型事務の代行を組む開発のハードルは確実に下がる。日本企業が抱える事務作業の山は、ここから数年で「AI に画面ごと任せる」前提に組み替わっていく。結局のところ、エージェントの普及を決めるのは賢さより安さと手軽さだ。Google は今回、その両方を一段引き下げてきた。

情報元: Introducing computer use in Gemini 3.5 Flash(Google)

みんなの反応

情シス一人部隊
(中小企業の情シス担当・40代男性)

うちはRPAを入れたものの、画面が少し変わるたびに止まって直す日々でした。画面を“見て”対応できるなら、その保守地獄が減るかもしれない。ただ誤操作が怖いので、最初は確認画面を挟んで小さく試します。
経理ひとすじ
(経理担当・50代女性)

毎月、画面から画面へ数字を転記する作業が地味につらいんです。それを横断でやってくれるなら本当に助かる。でも金額を扱うので、最後は人が見る前提じゃないと任せきれないですね。
スタートアップCOO
(SaaS企業COO・30代男性)

専用モデルを別で呼ぶ構成はコストも運用も重かった。主力のFlashに乗るなら、1作業あたりの単価が読みやすくなる。価格が出てから本格採用を判断したいですが、方向性は歓迎です。
QAテスター歴15年
(ソフトウェアテスト・40代女性)

ブラウザのテスト自動化って、画面が変わると壊れるのが悩みでした。スクリーンショットを見て動くなら、その脆さが少し和らぐかも。とはいえ誤判定の検証は必要なので、テストのテストが増えそうな予感も。
夜間部の社会人学生
(働きながら情報系を学ぶ・20代男性)

AIが自分でスクロールやクリックをするって、文章で読むとSFみたいですが要は人の操作を真似てるんですね。軽いモデルに降ろしたって話で“普及はコスト次第”という指摘が腑に落ちました。学習のモチベになります。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly