🕛 2026.6.16 20:52 文:ズバッとショウ

ロボに『日本語で頼む』は、まだ分が悪い。非英語の指示で成功率が30〜50%落ちた

ロボに『日本語で頼む』は、まだ分が悪い。非英語の指示で成功率が30〜50%落ちた
X はてブ LINE Feedly

ロボットに日本語で「これ取って」と頼む。近い将来それが当たり前になると、なんとなく思っていた。だが数字を見ると、そう甘くはなかった。

6 月に arXiv へ出た「When Does Language Matter?」という研究。VLA、つまり Vision-Language-Action モデル、ざっくり言えば「カメラで見て、言葉の指示を読んで、体を動かす」ロボAIの、多言語での強さを初めて体系的に測った論文だ。やったことはシンプル。ロボ操作の標準試験 LIBERO を 10 言語に翻訳し、同じ作業を言語だけ変えて解かせた。

結果がきつい。英語以外の指示にすると、成功率が 30〜50% 落ちた。半分近く取りこぼす言語もある、という話だ。中身は同じ「赤いカップを取れ」。変えたのは言葉だけ。それでこの差が出る。

落ちるのは全工程じゃない。特定の手順だけが言語に弱い

ここがポイントで、失敗は一様に散らばっていない。論文は作業を手順ごとに分解して調べ、言語の影響が強く出る手順と、ほとんど影響しない手順があると報告している。要するに、つまずく箇所は決まっている。あるステップだけが言葉に過敏で、そこがコケると作業全体が崩れる。残りの多くは言語にほぼ無関係、ということだ。

原因がそこまで絞れれば、打ち手も絞れる。著者たちは、手順ごとの言語への過敏さに応じて、AI 内部の表現を英語側と揃え直す介入を、動かしている最中(推論時)に差し込んだ。モデルを丸ごと鍛え直すのではなく、効く箇所だけ補正する発想。これで非英語の落ち込みをかなり持ち直した、という。

日本語は、その「英語以外」の側にいる

正直、ここが日本にとって一番効く。いま出回る VLA の多くは英語の指示と英語のベンチマークで育っている。日本語は当然「英語以外」の側で、この 30〜50% の落とし穴を踏みうる立場にいる。介護施設で「あの薬を取って」、工場のラインで「その部品を渡して」。同じ作業を英語で組んだ実験室では動いても、現場の日本語でそのまま同じ精度が出るとは限らない。そういう注意書きを、この研究は数字で突きつけてくる。

ただし、冷静に線は引いておきたい。これはシミュレーション上のベンチマーク(LIBERO)での結果で、実機の現場をそのまま測ったものではない。介入も「動かしながら補正する」研究段階の手法で、製品にそのまま載るかは別の話。10 言語に増やしたとはいえ、世界中のあらゆる言い回しを尽くしたわけでもない。過度に騒ぐ材料ではない。

それでも、見方は一つ更新される。これまで VLA の良し悪しは「どれだけ器用に動くか」で語られがちだった。そこに「どの言語で頼んだか」という軸が加わる。日本でロボを選ぶとき、導入するとき、「日本語対応」を一行で済ませず、英語と同じ精度が出るのかまで見たほうがいい。言語は、性能の隠れた変数だ。勝ち筋は、そこを最初から測っておくチームにある。

情報元: When Does Language Matter? VLA モデルにおける多言語指示とステップ単位の言語感受性 (arXiv)

みんなの反応

ラインの班長
(自動車部品工場・班長・40代男性)

うちのラインでも協働ロボの音声指示を試してるけど、英語のデモは綺麗に動くのに現場の日本語だと妙に取りこぼす理由、これかもしれん。全工程じゃなく特定の手順だけ弱いってのが妙にリアル。導入の話が来たら「日本語で同じ数字出るの?」って聞くわ。
特養のしごと人
(特別養護老人ホーム・介護リーダー・50代女性)

介護ロボの売り込みでは英語の動画ばかり見せられるんですが、実際に使うのは方言混じりの日本語なんですよね。半分近く失敗する言語があると聞くと、現場で「取って」が通じない場面が目に浮かびます。期待しすぎず、日本語でちゃんと試させてもらってから決めたいです。
多言語サポートの中の人
(コールセンター品質管理・20代女性)

言語ごとに弱い「手順」が決まってるって発見、私たちの仕事と似てます。翻訳でも全文じゃなく特定の言い回しで事故るので、そこだけ重点的に直すんですよね。AIも効く箇所だけ補正で持ち直したって、なんか納得感ありました。
下町の機械屋
(町工場経営・60代男性)

うちみたいな小さい工場が将来ロボ入れるとき、カタログの「対応言語」って欄を鵜呑みにしちゃいかんってことだな。英語で動くのと日本語で同じだけ動くのは別、と。数字で言ってくれると素人にも判断材料になって助かるよ。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly