
ロボットが作業をしくじりかけたとき、人が横から手を貸す。その「貸し方」に、地味だが見過ごせない問題があった。
arXiv に「Hand-in-the-Loop」、略して HandITL という論文が出ている。VLA(視覚・言語・行動)モデルで動く二本腕ロボットの、器用な手作業をどう仕込むかを扱った研究だ。Zhuohang Li 氏ら8名の著者によるもので、5月14日に投稿、20日に改訂されている(arXiv:2605.15157、ロボティクス分野)。まだ査読を経ていないプレプリントである点は、先に断っておきたい。
順を追って説明する。VLA モデルというのは、カメラの映像と言葉の指示から、ロボットの動きを直接出力する仕組みだ。指先を使う細かい作業では、わずかな動きのずれが時間とともに積み重なり、最後には失敗につながる。これを直す王道が、人が手本を見せて修正データを足していく「対話的な模倣学習」になる。
問題はここで起きる。指の関節が多い器用なハンドでは、人が操作に割り込んだ瞬間、人の手の形と、それまでロボットが取っていた手の形が食い違う。その食い違いを一気に埋めようとして、ロボットの手がガクッと不自然に動く。論文はこれを「ジェスチャージャンプ」と呼んでいる。走っている車のハンドルを横から急に握ると、握った人の手の位置とずれてハンドルが跳ねる——あの感覚に近い。
HandITL がやるのは、操作の主導権をぶつ切りで奪わないことだ。人の修正したい意図と、ロボットがそれまで進めていた自律的な動きを、なめらかに混ぜ合わせながら引き継ぐ。だから切り替わりの段差が出ない。見落としがちだけれど、これは「人がうまく操作できるか」ではなく「引き継ぎの瞬間に手が荒れないか」という、ひとつ手前の問題を解いている。
効果は数字で示されている。直接の遠隔操作で主導権を奪った場合と比べ、介入時の手の震え(ジッタ)を99.8%削減、つかみ損ねを87.5%減らし、作業の完了時間も19.1%短くしたという。両手の協調、道具の使用、細かく長い手順の作業で検証したとされる。
ただ、読む順序を間違えないことだ。いちばん効くのは、おそらく99.8%ではない。HandITL で集めた修正データで方策を学習し直すと、ふつうの遠隔操作で集めたデータで学習した方策より、長手順の器用な作業3種で平均19%上回ったという。介入のたびに手が跳ねていれば、その記録は学習データとしてノイズを含む。入り口のデータがきれいになることが、後工程の精度に効く。震えを抑えた話の本当の価値は、そちらにある。
日本でも、介護や物流、製造の現場で人型ロボットや二本腕ロボットへの期待は大きい。ただ、すぐ家庭や病室で動き出す話ではない。器用な作業をロボットに覚えさせるには大量の修正データがいり、その質がそのまま方策の質になる。HandITL が変えるのは、まずこのデータの集め方だ。ロボットを現場に置く前の、見えにくい土台の部分が一段しっかりする。プレプリント段階であり、実機でどこまで通用するかは本文の精査待ちだが、動向は追っておきたい。