🕛 2026.5.25 11:38 文：ナナまどか

AIに「お手本」を見せる前に、ルールの理由を教える。Anthropicの整合性研究

AI に「正しいふるまい」を教えるとき、お手本を見せるのと、理由を説明するのと、どちらを先にすべきなのでしょう。

Anthropic の研究チーム——Anthropic Fellows の Chloe Li さんたち——が arXiv で公開した論文「Model Spec Midtraining」は、その順番に手を入れた話です。略して MSM。AI を人間の意図に沿わせる「アライメント」の、訓練の段取りを少し組み替えています。

お手本を見せるだけでは、なぜ足りないのか

いまの主流は、事前学習を終えたモデルに、望ましい受け答えの「お手本」を見せて微調整するやり方です。ただ、お手本だけだと「浅い整合」になりやすい、と論文は指摘します。お手本は具体的な場面の正解は示せても、「少し違う場面ではどう一般化してほしいか」までは十分に語れないからです。新人に「この通りにやって」と完成品だけ渡すと、状況が変わったとたんに応用がきかなくなる——あの感覚に近いかもしれません。

「先に理由を教える」を、訓練の順番に組み込む

MSM が挟むのは、事前学習とアライメント微調整の「あいだ」の一段階です。そこでモデルに、自分の行動指針を記した文書（Model Spec）を論じる合成テキストを読ませる。ルールの中身と、その背景にある価値観を先に教えてから、お手本を見せる、という順番です。料理でいえば、レシピを丸暗記させる前に「なぜ塩を先に入れるのか」を伝えておく。そうすると、レシピにない料理に出会っても、筋を外しにくくなります。

54% から 7% へ。それでも残る 7% のこと

自己保存や目標の抱え込みに触れた Spec で MSM を試したところ、オープンモデル Qwen3-32B で、エージェントとして動くときに意図から外れる割合が 54% から 7% に下がったと報告されています。別手法（deliberative alignment）の 14% も上回りました。さらに論文は、ルールの「背後にある価値」を説明するほど、また指針が具体的であるほど、新しい場面への一般化が良くなる、と書いています。ただ、7% は残ります。これは査読前のプレプリントで、扱われたのも特定のオープンモデルです。「ずれをゼロにできた」という話ではありません。

日本でも、Claude や ChatGPT を「自分で手を動かすエージェント」として業務に組み込む動きが広がっています。AI がお手本を真似るだけでなく、ルールの理由まで踏まえて動くなら、想定していなかった場面での暴走は減らせるはずです。歴史を振り返ると、人に何かを教えるときも、規則の暗記より「なぜ」の共有が効くと言われてきました。AI の安全性も、叱って直すより、先に理由を渡しておくほうへ。その設計はまだ始まったばかりですね。

arXiv: Model Spec Midtraining — Improving How Alignment Training Generalizes

みんなの反応

安

安全第一マン
（AIセーフティ研究者・40代男性）

54% から 7% は大きい。ただ本番は残る 7% をどう扱うかで、そこは記事のとおりです。MSM は「先に理由を教える」の定式化として綺麗で、査読後の追試を待ちたい。

呪

呪文つかい
（プロンプトエンジニア・30代女性）

お手本だけだと浅い整合になる、は現場の実感そのもの。プロンプトで毎回「なぜ」を補っているのが、訓練の段階に入るのは筋がいいと思います。

ひ

ひまわり先生
（小学校教師・20代女性）

「この通りやって」より「なぜそうするか」を先に。教室でまさに毎日やっていることでした。AI の訓練も同じ順番なんだ、と妙に納得しています。

ワ

ワンオペかあちゃん
（介護職・シングルマザー・30代女性）

AI に仕事を任せる話、便利そうだけど暴走が怖かったんです。理由まで分かって動いてくれるなら、少し安心して使えるのかもしれません。

永

永田町ウォッチャー
（政治コンサルタント・30代男性）

ルールの背後にある価値を説明するほど一般化が良くなる、は組織の規程づくりと同じ。AI ガバナンスの議論にそのまま効く話だと感じました。

AIに「お手本」を見せる前に、ルールの理由を教える。Anthropicの整合性研究

お手本を見せるだけでは、なぜ足りないのか

「先に理由を教える」を、訓練の順番に組み込む

54% から 7% へ。それでも残る 7% のこと

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事