
ロボットに日本語で「これ取って」と頼む。近い将来それが当たり前になると、なんとなく思っていた。だが数字を見ると、そう甘くはなかった。
6 月に arXiv へ出た「When Does Language Matter?」という研究。VLA、つまり Vision-Language-Action モデル、ざっくり言えば「カメラで見て、言葉の指示を読んで、体を動かす」ロボAIの、多言語での強さを初めて体系的に測った論文だ。やったことはシンプル。ロボ操作の標準試験 LIBERO を 10 言語に翻訳し、同じ作業を言語だけ変えて解かせた。
結果がきつい。英語以外の指示にすると、成功率が 30〜50% 落ちた。半分近く取りこぼす言語もある、という話だ。中身は同じ「赤いカップを取れ」。変えたのは言葉だけ。それでこの差が出る。
ここがポイントで、失敗は一様に散らばっていない。論文は作業を手順ごとに分解して調べ、言語の影響が強く出る手順と、ほとんど影響しない手順があると報告している。要するに、つまずく箇所は決まっている。あるステップだけが言葉に過敏で、そこがコケると作業全体が崩れる。残りの多くは言語にほぼ無関係、ということだ。
原因がそこまで絞れれば、打ち手も絞れる。著者たちは、手順ごとの言語への過敏さに応じて、AI 内部の表現を英語側と揃え直す介入を、動かしている最中(推論時)に差し込んだ。モデルを丸ごと鍛え直すのではなく、効く箇所だけ補正する発想。これで非英語の落ち込みをかなり持ち直した、という。
正直、ここが日本にとって一番効く。いま出回る VLA の多くは英語の指示と英語のベンチマークで育っている。日本語は当然「英語以外」の側で、この 30〜50% の落とし穴を踏みうる立場にいる。介護施設で「あの薬を取って」、工場のラインで「その部品を渡して」。同じ作業を英語で組んだ実験室では動いても、現場の日本語でそのまま同じ精度が出るとは限らない。そういう注意書きを、この研究は数字で突きつけてくる。
ただし、冷静に線は引いておきたい。これはシミュレーション上のベンチマーク(LIBERO)での結果で、実機の現場をそのまま測ったものではない。介入も「動かしながら補正する」研究段階の手法で、製品にそのまま載るかは別の話。10 言語に増やしたとはいえ、世界中のあらゆる言い回しを尽くしたわけでもない。過度に騒ぐ材料ではない。
それでも、見方は一つ更新される。これまで VLA の良し悪しは「どれだけ器用に動くか」で語られがちだった。そこに「どの言語で頼んだか」という軸が加わる。日本でロボを選ぶとき、導入するとき、「日本語対応」を一行で済ませず、英語と同じ精度が出るのかまで見たほうがいい。言語は、性能の隠れた変数だ。勝ち筋は、そこを最初から測っておくチームにある。
情報元: When Does Language Matter? VLA モデルにおける多言語指示とステップ単位の言語感受性 (arXiv)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。