
ロボットに「いい動き」を教えるのに、人間が数万回もアンケートに答えてた——って知ってました?
その負担をかなり減らす手法が出ました。OpenReviewに掲載されている VOTP(Video-based Optimal TransPort Preference)で、著者は Tung Minh Luu さん、Hwanhee Kim さん、Younghwan Lee さん、Chang D. Yoo さん。ページ上では ICLR 2026 への投稿として表示されています。査読採択や Oral 枠を確認できる一次情報は、今回見た範囲ではありませんでした。
ロボットの強化学習には「報酬」、つまり何が良い動きかの採点基準が要ります。これを人間の好みから作るのが選好ベース強化学習で、やり方は単純。動き A と B の動画を見せて「どっちがいい?」を延々聞く。これが数千〜数万件規模で必要でした。
人件費もかかるし、答える側も飽きる。現場ごとに「うちではこう動いてほしい」が違うのに、そのたび数万回アンケートは現実的じゃない。ここがロボット導入の地味なボトルネックでした。
VOTP の発想はこうです。まず人間がラベル付けするのは、ほんの数本の選好動画だけ。残りの大量のラベルなし動画には、動画基盤モデル(ViFM、大量の動画で訓練済みの AI)の「目」を借りて、機械が擬似ラベルを付けます。
そのとき使うのが最適輸送という数学の道具。荷物の山を別の場所へ運ぶ最小コストの割り当てを求める理論で、ここでは ViFM が捉えた動きの特徴どうしを突き合わせて、「この動画はお手本とどれくらい近いか」の距離を測る物差しとして働きます。人間が答えるのは最初の数問だけ、残りの採点は動画 AI と数学にやらせる。半教師あり学習というやつですね。
性能の報告も出ていて、フィードバック件数を絞った条件で既存のオフライン選好強化学習の最高手法を上回り、背景に余計なものが映り込む視覚ノイズにも頑健だったとのこと。シミュレーションだけでなく実機ロボットのタスクでも、わずかな人間の入力から意味のある報酬を学習できたと報告されています。
ただこれはオフライン設定(集めてあるデータから学ぶ)の研究で、お手本動画の質に結果が左右される構図は残ります。あくまで査読を通った研究段階で、明日の製品に載る話ではないです。
それでも、人手不足で産業ロボットや介護・物流ロボットへの期待が大きい日本にとって、この方向性はかなり実利的。「専門家がコードで報酬を設計する」でも「数万回アンケート」でもなく、現場の人がお手本動画を数本撮ればロボットがその現場の流儀を覚える——そういう未来への部品が、また一つ揃った感じです。これ、実機デモが出たら即見たい。
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。