🕛 2026.6.20 22:37 文：みちるガジェ

ロボAIの推論を最大55倍高速化。『立体の勘』を行動につなぐGAM

ロボットを賢く動かすAI、最近すごく増えてるんですが、中身はけっこう力技なんです。「カメラで見る係」「次に何が起きるか予想する係」「じゃあ手をどう動かすか決める係」を別々のモジュールで作って、それを繋いで動かす。役者を3人雇って連携させてるイメージで、当然ながら重いし遅い。

そこに、ちょっと待って、と言いたくなる論文が6月中旬のarXivに出ました。KAIST(韓国科学技術院)のチームによる「Geometric Action Model」、略してGAM。3役を1個のモデルに束ねた、という話で、これが地味どころか普通に速いんです。

バラバラの3役を、「立体がわかる脳」1個で兼ねる

カギは、幾何基盤モデル(GFM)というものを土台に使うところ。最近のロボAI——VLA(視覚・言語・行動)系って呼ばれます——は、賢い基盤モデルから知識を引き継いではいるんですが、扱ってるのは結局カメラの2D映像やそこから作った情報がほとんど。モノを掴んだり押し込んだりする「接触のある作業」に本当に必要な、立体(3D)の感覚が抜け落ちがちだったんですね。

GAMはそこを、最初から立体を理解している脳で埋める。しかも1個の脳を途中で割って使い回すのがうまい。前半の浅い層は「目」として今の状況を読み取る係に。その割れ目に未来予測器を差し込んで、言語の指示・ロボ自身の手足の位置感覚(固有受容感覚)・これまでの動きの履歴をもとに、「この先どうなるか」を予測させる。で、その予測を残りの脳に通すと、未来の立体の様子と、次に取るべき行動が、同じ1本のバックボーンからまとめて出てくる。1人の人が「見て・予想して・手を出す」を頭の中で一気通貫でやる感じです。これ、設計として気持ちいい。

最大55.4倍。ただし実行条件まで見る

で、気になるスペックなんですが、GAMは14億パラメータで、単一のNVIDIA GH200上では1回の行動予測が6.9ミリ秒、約145Hz。Cosmos Policyの382.4ミリ秒に対して55.4倍高速でした。ただしモデル処理時間だけを測り、読み込みと入力前処理を除外した数字です。さらにGAM側はCUDA Graphsを使用。同じTorch Compile条件でCUDA Graphsを使わない比較では17.5ミリ秒です。それでも約22倍ですが、「どんな環境でも55倍」と受け取るのは違います。

なんで速さがそんなに大事かというと、ロボットは「考えてる間に世界が動く」からなんです。コンマ数秒の判断の遅れが、掴み損ねやぶつかりに直結する。しかも軽くなれば、クラウドの巨大GPUに毎回問い合わせなくても、ロボに載せた手元のチップ(エッジ)で完結させやすくなる。私がずっと気にしてるエッジAIの家庭応用に、まさに効く方向です。

台所みたいな散らかった現場で、粘れるか

とはいえ、スペックだけで浮かれるのは私の悪い癖なので一回落ち着くと、これは研究段階の成果で、いきなり家庭用ロボが買える話ではないです。ベンチで強いことと、台所みたいな散らかった実環境で安定して動くことの間には、まだ距離がある。1個の脳に3役を兼ねさせる設計は美しい反面、苦手なタスクが出たときに「どこが原因か」を切り分けにくい、という弱点も理屈の上ではありえます。そのへんは追試待ち。

それでも方向性はワクワクします。日本は工場や物流、介護の現場で人手不足が深刻で、ロボの実用化が本気で求められてる国です。そこで効くのは、でかいモデルを高い計算資源で回す路線より、軽くて速くて手元のチップで動く路線のほう。GAMはまさにその筋を一歩進めた研究だと思います。安いチップでも立体の勘を持って素早く動くロボ——その現実味が、また一段上がった。これは続報を追いたいやつです。

情報元: ロボット方策学習のための幾何アクションモデル GAM (arXiv)

みんなの反応

米

米農家のむすめ
（米農家・30代女性）

55倍速いって聞くとピンとこないけど、田んぼの作業はほんとに「考えてる間に天気も土も変わる」ので、判断が速い機械はありがたいんです。しかも軽くて手元のチップで動くなら、ネットが弱いうちの地域でも使える望みがある。立体の勘を持つロボ、収穫や選別の現場に来てくれたら正直助かります。続報、追いたい。

訪

訪問ヘルパーゆき
（訪問介護ヘルパー・60代女性）

介護の現場は人手が足りなくて、体を支えたり物を取ったりの細かい動きをロボに頼れたら、と何度も思います。掴む・押すみたいな接触のある作業に立体の感覚が要る、という説明で、なぜ今までのロボが不器用だったのか腑に落ちました。すぐ家に来る話ではないにしても、こういう地道な研究が現場に降りてくるのを待っています。

長

長距離ドライバー
（長距離トラック運転手・50代男性）

倉庫の積み下ろしロボ、何度か見たけど動きがもっさりで結局人がやり直してた。コンマ数秒の遅れが掴み損ねになる、ってのは現場感覚そのまま。速くて軽い脳に一本化、ってのが本当なら物流は変わるかもしれん。ただ散らかった現場で安定するかは別問題、ってのも書いてあって、そこは正直だと思った。

れ

れんれん
（高校生・10代男性）

脳1個を途中で割って、目と未来予測と手の3役に使い回すって発想がかっこいい。役者3人雇うより1人が頭の中で全部やる、ってたとえで一気に分かった。55倍はロマンある数字。原因の切り分けがしにくいって弱点も理屈で書いてあって、ただ盛り上げるだけじゃないのが信用できる。これ追いかけたい。

ひ

ひまわり先生
（小学校教師・20代女性）

「見て・予想して・手を出す」を一気にやる、という説明、子どもに動作を教えるときの順番そっくりで親しみがわきました。立体の感覚って、図工で粘土をこねる子の手つきを見てると本当に大事なんだなと感じます。機械にもそれを持たせる研究なんですね。教室で使える日はまだ先でも、わくわくする話でした。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

ロボAIの推論を最大55倍高速化。『立体の勘』を行動につなぐGAM

バラバラの3役を、「立体がわかる脳」1個で兼ねる

最大55.4倍。ただし実行条件まで見る

台所みたいな散らかった現場で、粘れるか

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事