
ロボットを賢く動かすAI、最近すごく増えてるんですが、中身はけっこう力技なんです。「カメラで見る係」「次に何が起きるか予想する係」「じゃあ手をどう動かすか決める係」を別々のモジュールで作って、それを繋いで動かす。役者を3人雇って連携させてるイメージで、当然ながら重いし遅い。
そこに、ちょっと待って、と言いたくなる論文が6月中旬のarXivに出ました。KAIST(韓国科学技術院)のチームによる「Geometric Action Model」、略してGAM。3役を1個のモデルに束ねた、という話で、これが地味どころか普通に速いんです。
カギは、幾何基盤モデル(GFM)というものを土台に使うところ。最近のロボAI——VLA(視覚・言語・行動)系って呼ばれます——は、賢い基盤モデルから知識を引き継いではいるんですが、扱ってるのは結局カメラの2D映像やそこから作った情報がほとんど。モノを掴んだり押し込んだりする「接触のある作業」に本当に必要な、立体(3D)の感覚が抜け落ちがちだったんですね。
GAMはそこを、最初から立体を理解している脳で埋める。しかも1個の脳を途中で割って使い回すのがうまい。前半の浅い層は「目」として今の状況を読み取る係に。その割れ目に未来予測器を差し込んで、言語の指示・ロボ自身の手足の位置感覚(固有受容感覚)・これまでの動きの履歴をもとに、「この先どうなるか」を予測させる。で、その予測を残りの脳に通すと、未来の立体の様子と、次に取るべき行動が、同じ1本のバックボーンからまとめて出てくる。1人の人が「見て・予想して・手を出す」を頭の中で一気通貫でやる感じです。これ、設計として気持ちいい。
で、気になるスペックなんですが、GAMは14億パラメータで、単一のNVIDIA GH200上では1回の行動予測が6.9ミリ秒、約145Hz。Cosmos Policyの382.4ミリ秒に対して55.4倍高速でした。ただしモデル処理時間だけを測り、読み込みと入力前処理を除外した数字です。さらにGAM側はCUDA Graphsを使用。同じTorch Compile条件でCUDA Graphsを使わない比較では17.5ミリ秒です。それでも約22倍ですが、「どんな環境でも55倍」と受け取るのは違います。
なんで速さがそんなに大事かというと、ロボットは「考えてる間に世界が動く」からなんです。コンマ数秒の判断の遅れが、掴み損ねやぶつかりに直結する。しかも軽くなれば、クラウドの巨大GPUに毎回問い合わせなくても、ロボに載せた手元のチップ(エッジ)で完結させやすくなる。私がずっと気にしてるエッジAIの家庭応用に、まさに効く方向です。
とはいえ、スペックだけで浮かれるのは私の悪い癖なので一回落ち着くと、これは研究段階の成果で、いきなり家庭用ロボが買える話ではないです。ベンチで強いことと、台所みたいな散らかった実環境で安定して動くことの間には、まだ距離がある。1個の脳に3役を兼ねさせる設計は美しい反面、苦手なタスクが出たときに「どこが原因か」を切り分けにくい、という弱点も理屈の上ではありえます。そのへんは追試待ち。
それでも方向性はワクワクします。日本は工場や物流、介護の現場で人手不足が深刻で、ロボの実用化が本気で求められてる国です。そこで効くのは、でかいモデルを高い計算資源で回す路線より、軽くて速くて手元のチップで動く路線のほう。GAMはまさにその筋を一歩進めた研究だと思います。安いチップでも立体の勘を持って素早く動くロボ——その現実味が、また一段上がった。これは続報を追いたいやつです。
情報元: ロボット方策学習のための幾何アクションモデル GAM (arXiv)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。