🕛 2026.5.14 11:33 文:よりそいあおい

Google DeepMindが「マウスポインター」を作り直す。AIに「これ」と「あれ」が通じる時代へ

Google DeepMindが「マウスポインター」を作り直す。AIに「これ」と「あれ」が通じる時代へ
X はてブ LINE Feedly

ふと考えてしまうんですが、マウスのカーソルって、もう半世紀くらい同じ形で生きていますね。

Google DeepMind が 5 月 12 日に公開したリサーチで、その「動かない友達」をいよいよ作り直そうとしています。Adrien Baranes さんと Rob Marchant さんが書いた研究ブログのタイトルは、そのまま「AI 時代のためにマウスポインターを再構想する」。Gemini を背後に置いた「AI ポインター」の試作と、4 つの設計原則が公開されました。

ちょっと気になったのが、これ、エンジニアより先に教室や事務所で効いてくる話だなと感じたところです。

何が問題だったか

いまの AI アシスタントの使い方を思い返すと、「ChatGPT や Gemini のウィンドウを開いて、文章を貼って、何が欲しいかを長く書く」という流れですよね。DeepMind の説明では、これは「自分の世界を AI のウィンドウに引きずり込む」やり方になっている。逆に、AI が私たちの作業の流れに合わせて出てきてくれたら、もっと自然になるんじゃないか——というのが今回の問題意識です。

たとえば建物の写真を指差して「行き方を教えて」と言うだけで道案内が出てくる。これくらいの軽さで AI と話せる世界を、ポインターを再設計することで作ろう、というのが研究の大きな絵です。

4 つの設計原則をやさしく

DeepMind が掲げた 4 つの原則を、現場の感覚でかみ砕くと次のようになります。

ひとつめは「流れを止めない(Maintain the flow)」。AI を使うために別のアプリに移らない。PDF を見ていれば、その PDF を指差したまま「要点だけ箇条書きにしてメールに貼って」と言える。表を見ているなら、そのままハンドで触って「円グラフにして」「材料を倍にして」と言える。AI のための「寄り道」をなくす考え方ですね。

ふたつめは「見せて、言う(Show and tell)」。「これ、修正して」と指差せば、AI が画面の周辺の視覚情報と意味の文脈を読み取って、どの単語・段落・画像の一部・コードを直したいのかを察してくれる。長いプロンプトを書かなくても、目で示すだけで通じる。

みっつめは「『これ』と『あれ』の力(Embrace the power of “This” and “That”)」。私たち、普段の会話で「あれ取って」「これ動かして」と言いますよね。指差しや身振りと共有された文脈で省略している部分を、AI が同じように埋めてくれる。これ、地味に助かるやつです。

よっつめは「ピクセルを『操作できるモノ』に変える(Turn pixels into actionable entities)」。これまでのコンピュータは「どこを指したか」しか見ていなかった。これからは「何を指したか」も理解する。手書きメモの写真が、そのままインタラクティブな ToDo リストになる。旅行動画を一時停止した画面の中のレストランが、予約リンクに変わる、という発想です。

中学生の方にも届く言い方で書くなら、マウスカーソルが「目」を持って、画面の意味を読めるようになる という話に近いです。

今日から触れるところ

面白いのは、これがリサーチ発表に留まっていないところです。

その場で試せるデモが 2 つ、Google AI Studio 上で公開されています。ひとつは画像を指差して編集する「Edit an image」、もうひとつは地図上で場所を見つける「Find places on the map」。プロンプトを長く書かず、ポインターで指して言葉で添えるだけ、という体験のミニ版を実機で確かめられます。

さらに DeepMind は「Gemini in Chrome」に同じ思想を持ち込み始めています。Chrome 上でウェブページの一部を選んで「比較して」「ここに新しいソファを置いて見せて」と言える機能が、今日から段階的に有効になります。ノートパソコン側は、先日発表された Android ベースの新ハードウェア群 Googlebook に「Magic Pointer」として組み込まれていく予定です。Google Labs の Disco でも、同じ考え方の試作が今後出てくる、と書かれています。

いまの実力と限界

正直に書くと、これはまだ「研究の公開」と「初期統合」のフェーズです。Google AI Studio のデモは限定的なシナリオで、4 つの原則がすべて、毎日の作業で破綻なく成立するまではいかない。AI ポインターが想定外の場所で発火したり、共有文脈を読み違える局面は当然出てきます。

それから、もうひとつ思うことがあって。誰の「文脈」を読み取るのか、という問題が常に隣にあります。視覚情報を Gemini に渡すという行為は、画面に映っているプライベートなデータも一緒に渡している、ということ。企業や学校で導入するなら、ログとデータ取り扱いの設計を慎重に見ていく必要がある領域です。続報待ちですね。

日本のユーザー・産業への含意

日本では Chromebook を一斉導入した学校、自治体の窓口、デザイン事務所、不動産の現場——いわゆる「文章で指示するのが苦手」という方が多い場面が AI から取り残されがちでした。マウスとマイクで通じるなら、現場の先生にとっては「指差して、声を添える」という、子どもにも教えやすい操作になります。

介護や医療の現場でも、画面を見ながら手元のメモを指差して「これ、申し送りに入れて」と頼める世界は、現場の感覚としてはずいぶん近づきます。Googlebook が秋に出てくる頃には、教室や事務所のリプレース提案で「文章プロンプト不要」という売り文句が現実になりそうです。

だから何が変わるの?

AI を使うのに、長い文章を書ける人と書けない人で差がついてきた数年でした。ポインターが文脈を読めるようになれば、その差はかなり小さくなります。次のステップが楽しみですね。

情報元
Google DeepMind Blog — Reimagining the mouse pointer for the AI era(2026-05-12)
Google AI Studio — AI Pointer デモ(画像編集)
Google AI Studio — AI Pointer デモ(地図検索)

みんなの反応

U
UXデザインの人
(UXデザイナー・30代女性)

「これ」と「あれ」をそのまま通じさせる、というのは UI 設計者からするとずっと夢だった話。指示語と空間参照の処理は、AI 側の進化と OS 側の API 提供がセットで進まないと現場には届かない。Chrome と Googlebook で同時に動かすあたり、Google の本気を感じます。
ひまわり先生
(小学校教諭・40代女性)

子どもたちにプロンプトを書かせるのは正直しんどかったので、これは助かる話。教室の Chromebook で「指して話す」が通じるなら、低学年でも自然に AI に触れられそうです。
訪問ヘルパーゆき
(介護ヘルパー・40代女性)

ご家族から「写真のここのお薬の名前わかる?」と聞かれる場面が多くて、いちいち入力するの大変だったんです。画面の中の薬の写真を指して「これ、説明して」で通じるなら、現場が随分楽になります。
安全第一マン
(情報セキュリティ担当・40代男性)

ポインターが見たものを Gemini に送る、ということは、画面の機密も道連れになる前提で運用しないとまずい。社内導入時のスクリーン情報の扱いがどうなるか、設定の細かいところを見ていきたい。
人権弁護士れん
(弁護士・40代女性)

「指せば伝わる」UI は、文章が苦手な高齢者や障害のある方を AI から置き去りにしない方向に効くはず。同時に、画面情報を取られる側の同意設計を、最初の段階できちんと示してほしい。
X はてブ LINE Feedly