ロボットに新しい動きを覚えさせるのは、いまでもけっこう大変な作業です。
そこに一石を投じる論文が arXiv に出ています。北京大学 CFCS と北京航空航天大学のグループによる「SUGAR」。人型ロボット(ヒューマノイド)に、移動しながら物を扱う全身の動作を教えるための、新しい枠組みです。投稿は2026年5月19日。
まず、これまでどうやってきたか、というところから。論文は従来のやり方を三つ挙げて、それぞれに弱点があると整理しています。
ひとつは、ご褒美の設計。「この動きをしたら何点」というルールを、作業ごとに人が一から作り込む方法ですが、これがとにかく手間がかかる。ふたつめは、お手本の再生。あらかじめ用意した動きをそのままなぞらせるやり方で、決まった場面には強いけれど、状況が少し変わると途端に融通がきかなくなります。みっつめは、遠隔操作。人がVRなどでロボットを操ってデータを集める方法で、質はいいんですが、人手とコストがかかってスケールしません。要はこういうことですね。どれも「たくさんのロボットに、たくさんの動作を、安く覚えさせる」には向いていなかった。
で、SUGAR が何をするかというと、ふつうの人間の動画から学ばせる。これ、なかなかすごいんですよ。
きれいに撮り直したお手本ではなく、構造化されていない(つまり、ありふれた)人間の動画を入力にします。そこから完全自動のパイプラインが、人と物がどう動いたかの軌道や、どこでどう触れたか(接触ラベル)といった、動作の手がかりを取り出していく。SUGAR はこの手がかりを使って、推論のときにタスクごとの報酬設計も、お手本の動きの条件付けもなしで、ヒューマノイドの全身動作へ落とし込めると説明されています。ちなみに loco-manipulation というのは、歩く・しゃがむといった移動と、物をつかむ・運ぶといった操作を、ひとつながりにこなすことを指す言葉です。
ここで気をつけたいのは、これがまだ arXiv のプレプリントだということ。要旨では6つの loco-manipulation 課題で、シミュレーションと実機ヒューマノイドの両方を評価したとされています。ゼロショットでの実機転移、閉ループ実行、失敗からの復帰、外乱がある長手順での安定性も主張されています。ただし、具体的にどの課題で何点だったのか、既存手法との差がどれくらいかという細かいスコアまでは、この記事では断定しません。そこは本文・プロジェクトページの追加確認待ちです。
で、何が変わるかというと、ロボットの学習の入り口です。日本でも介護や物流の現場でヒューマノイドへの期待は大きいのですが、いちばんの壁は「動作データをどう集めるか」でした。専門家が一つずつ仕込む世界から、世の中にあふれている人間の動画をそのまま教材にできる世界へ。その移り変わりを後押しする研究だと思います。どこまで実機に効くのか、続報待ちですね。