
スマホのカメラを何かに向けて、「これ何?」と話しかける。あの使い方を、まじめに採点する物差しが出てきました。
「VSAS-Bench」というベンチマークが、arXiv に出ています(arXiv:2604.07634)。2026年4月8日に初稿が出て、5月5日に改訂された論文で、arXiv のコメント欄には CVPR Findings 2026 と記されています。リアルタイムで映像を見ながら答え続けるAI——論文の言葉だと「ストリーミング型の視覚言語モデル(VLM)」——の実力を、共通のものさしで測るための枠組みとデータセットです。
ふつうの画像AIは、写真を1枚見せて質問すると答えを返します。録画済みの動画でも、最後まで見てから答えればいい。ところがリアルタイムの視覚アシスタントは、指示を受けたあと、カメラから流れ込んでくる映像をその場で見ながら、答え続けなければなりません。
要はこういうことですね。静止画なら「答えが合っているか」だけを見ればいい。でも映像が流れ続ける場面では、「いつ答えるか」も実力のうちになる。早すぎても、手遅れでも困る。採点の仕方そのものを作り直す必要がある、というのが出発点です。
VSAS-Bench がやっているのは、その「映像を理解する力」と「答えを出す力」を切り分けて測ることです。
論文は、映像理解の正しさとは別に、ふたつの軸を立てています。ひとつは proactiveness、応答の適時性——必要な瞬間にちゃんと口を開けるか。もうひとつは consistency、時間方向の一貫性——同じような状況で答えがぶれないか。さらに、答えを待ってから評価する同期モードと、流しっぱなしで評価する非同期モードの、標準的な手順も用意されています。
中身を支えているのが、注釈データの量です。さまざまな入力領域・タスクにわたって、時間的に細かく刻んだ注釈が1万8000件以上。これを使って、最近の動画AI・ストリーミングAIをまとめて評価しています。
そこで見えてくるのが、避けられないトレードオフです。ざっくり言うと、過去の映像を長く覚えておくほど、解像度を上げるほど、AIは賢く答える。けれどその分、反応は遅くなる。VSAS-Bench は、メモリの長さや参照のしかた、入力の解像度といった設計の選び方を変えながら、この精度と遅延のせめぎ合いを曲線として描き出します。
日本でも、スマホのカメラを向けて話しかけるアシスタントは、もう珍しいものではなくなりました。料理をしながら、買い物をしながら、勉強をしながら、リアルタイムで聞く。その使い心地は、結局「速さと正しさの兼ね合い」で決まります。
で、何が変わるかというと、その兼ね合いを宣伝文句ではなく数字で比べられるようになる、ということです。共通のものさしがあれば、各社は同じ土俵で改善を競える。ベンチマーク自体がアシスタントを賢くするわけではありません。ただ、リアルタイムの視覚アシスタントが「なんとなく便利」から「ちゃんと使える」へ進むには、こういう地味な物差しがいる。気になるところです。
arXiv: VSAS-Bench — Real-Time Evaluation of Visual Streaming Assistant Models