マウスのカーソルって、ここ 30 年くらい姿が変わってないんですよ。あの矢印が、ようやく次に進みそうです。
Google DeepMind が、AI を組み込んだ新しいマウスポインタの研究プレビューを公開しました。名前はそのまま「AI Pointer」。Gemini が画面の中身を読みながら、人が「これを動かして」「これって何?」と短く言うだけで動いてくれる、というやつです。
たとえば、ブラウザの中で気になる写真の上にポインタを置いて「ここへの行き方を見せて」と言えば、Gemini が画像の内容と文脈を理解して応答する。PDF を指して要点をメール用にまとめたり、統計表を指して円グラフにしたり、レシピを指して材料を倍量にしたりする。コードブロックについて「ここを見て」と聞くことも想定されています。要は、画面のピクセルを「ただの絵」から「中身を理解できる操作対象」へ変える、というアプローチです。
DeepMind は設計の柱として 4 つの原則を挙げています。ユーザーの作業フローを切らない、指して話す(show and tell)、「これ」「あれ」のような指示語をくみ取る、そしてピクセルを操作可能なエンティティとして扱う。読むと当たり前に見えますが、これまでのマウス操作は「クリックする・選ぶ・コピペする」という単純な動作の組み合わせで、画面の中身そのものは OS から見えてなかったんですね。そこに Gemini が割って入る、という構図です。
普段の会話だと、人は「これ」「あれ」「ここ」を当たり前に使います。でも、PC とのやり取りでは、その「これ」を毎回正確な座標や選択範囲で指定しないといけなかった。AI Pointer は、ポインタの場所と Gemini の画面理解を組み合わせて、その「これ」を解釈してくれる設計です。
統合先も具体名が出ています。Chrome の「Gemini in Chrome」と、Google の新しい laptop experience「Googlebook」の「Magic Pointer」に組み込み中とのこと。さらに、開発者向けの Google AI Studio では、画像編集や地図検索の実験デモを試せるそうです。
PC の操作は、慣れた人にはなんでもないですが、苦手な人にはずっと壁です。両親に Zoom の使い方を教えたり、Excel の表を直してあげたりした経験のある方なら、「ここをこうやって」が口頭でしか通じない不便さを知ってると思います。
AI Pointer の発想は、その「ここをこうやって」を、PC の側がそのまま受け取れるようにする、という方向です。日本で言えば、業務 PC で Excel の操作を覚えきれずに手が止まる人、買い物のサイトでうまくクーポンを使えない人、医療や行政の窓口で電子書類を入力する人――そういう場面に効きそう。Chrome に入るなら、すでに使っている人ほど切り替えコストが小さいのも嬉しいところです。
短期的には「Chrome の中で Gemini に画面の話をしながら作業する」スタイルが先に普及しそうです。商品ページを開いて「これと前見たやつ、どっちが安い?」、ニュース記事を開いて「この単語、要約して」、表計算で「この列、グラフにして」――そういう自然な指示が、矢印の位置だけで通じるようになる。
中期で見ると、PC を「コマンドを覚えて操る道具」から「画面を指して話せば動く道具」へ寄せていく流れの一歩、ということになります。研究プレビュー段階なので、製品化のタイミングや日本語サポートの細部は、まだはっきりしません。続報待ちですね。
Google DeepMind: Reimagining the mouse pointer for the AI era