
ロボットの「手」、ずっと気になってるんです。腕や移動はどんどん賢くなってるのに、肝心の手先が二本の爪で挟むだけ、みたいなロボが多くて。そこを正面から殴りに行った論文を6月に見つけたので置いておきます。
arXiv に出た「Bridging the Morphology Gap」という研究。Chuanke Pang さんら6名の著者によるもので、提案手法の名前は InDex といいます。やりたいことを一言でいうと、これまで賢く育ててきたロボの「脳」を、不器用な手から器用な手へ引っ越しさせる、という話です。
ここで出てくる VLA というのは Vision-Language-Action モデルの略で、ざっくり「目で見て、言葉の指示を読んで、体の動きを出す」AI のこと。「赤いコップを取って」と言えば、カメラ映像を見て腕を動かしてくれる、いまのロボAIの主役です。ただ論文いわく、この VLA の大半は平行二指グリッパー、つまり物を挟むだけのシンプルな手を前提に鍛えられている。だから、人間みたいに指が何本もある器用なハンドに付け替えると、途端にうまく動かなくなる。
問題は、手の形(モルフォロジー)が違いすぎることです。二本指のロボは「開く・閉じる」の一次元しか考えなくていい。でも五本指の手は、関節がたくさんあって動かし方の組み合わせが膨大になる。ここに、二本指で鍛えた脳をそのまま放り込んで指の制御ごと学び直させると、もともと持っていた「空間を読む賢さ」のほうが壊れてしまう、と論文は指摘します。新しい指づかいを覚えさせようとした結果、コップの位置を見る力まで忘れてしまう。これが破滅的忘却と呼ばれる現象です。
InDex の発想がうまいのはここで、二本指時代の「挟む・開く」という大ざっぱな出力を、捨てずに残すんです。これを「いまどれくらい握りたいか」という連続的な握り意図のメーターとして再利用する。例えるなら、運転は上手なベテランに、いきなりマニュアル車のクラッチ操作まで全部やり直させるのではなく、「アクセルを踏みたい度合い」だけはこれまで通り任せて、その踏み具合に合わせて足の細かい動きを別の係が補う、みたいな分担です。
具体的には学習を二段階に分けます。第一段では、もとの VLA の本体を軽く調整して、腕がどんな軌道を描くかと、さっきの「握り意図」のメーター値を予測させる。ここはあくまで全体の動きと意図のレベルの話です。第二段では、その空間を読む本体部分を凍結して触らないようにしたうえで、意図のメーター値を手がかりに、指の関節ひとつひとつの細かい曲げ角度を作り出す専用パーツを足す。このパーツには拡散モデル、画像生成でおなじみの「ノイズから少しずつ形を整えていく」あの仕組みが使われています。握りたい度合いという指示に合わせて、指の動きをだんだん描き出していくイメージですね。
本体を凍結してから指を足す、という順番がミソで、こうすると元の賢さを壊さずに器用さだけを上乗せできる。論文では、つまむ・ひねるといった接触の多い多段階の作業をいくつも用意したシミュレーション環境で試していて、手の制御をまるごと一発で学ばせる従来のやり方より、少ないお手本のデータでうまくこなせたと報告しています。
ちょっと冷静に見ておくと、まだ評価はシミュレーション中心で、実機のロボットでどこまで通用するかはこれから。お手本データが少なくて済むのが売りとはいえ、扱えるのは決められた接触作業の範囲で、何でも器用にこなす万能の手になったわけではないです。abstract の段階では成功率の具体的な数字までは出ていないので、そこは続報を待ちたいところ。
それでも、これが効いてくる場所は想像しやすいんですよね。日本だと介護や家事の現場、それと町工場の多品種少量の組み立て。人手が足りない場所ほど、ロボに任せたい作業は「ペットボトルのキャップをひねる」「やわらかいパンをつかむ」みたいな、二本指の爪では雑すぎてこぼす類のものです。器用なハンドのロボを一台ずつ膨大なデータで鍛え直すのはコスト的に現実的じゃない。だから、すでにある賢い VLA をそのまま活かして、少ないお手本で手だけ器用にできる、というこの方向は地味に大きい。ロボの「手の不器用さ」が、お手本の数の問題に変わっていくなら、家庭にちゃんと使える手が来る日もそのぶん前倒しになるはず。その日が来たら、即レビューしたいです。
情報元: Bridging the Morphology Gap: VLAモデルを器用な手の操作へ適応させる意図条件付きファインチューニング (arXiv)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。