
AI に「正しいふるまい」を教えるとき、お手本を見せるのと、理由を説明するのと、どちらを先にすべきなのでしょう。
Anthropic の研究チーム——Anthropic Fellows の Chloe Li さんたち——が arXiv で公開した論文「Model Spec Midtraining」は、その順番に手を入れた話です。略して MSM。AI を人間の意図に沿わせる「アライメント」の、訓練の段取りを少し組み替えています。
いまの主流は、事前学習を終えたモデルに、望ましい受け答えの「お手本」を見せて微調整するやり方です。ただ、お手本だけだと「浅い整合」になりやすい、と論文は指摘します。お手本は具体的な場面の正解は示せても、「少し違う場面ではどう一般化してほしいか」までは十分に語れないからです。新人に「この通りにやって」と完成品だけ渡すと、状況が変わったとたんに応用がきかなくなる——あの感覚に近いかもしれません。
MSM が挟むのは、事前学習とアライメント微調整の「あいだ」の一段階です。そこでモデルに、自分の行動指針を記した文書(Model Spec)を論じる合成テキストを読ませる。ルールの中身と、その背景にある価値観を先に教えてから、お手本を見せる、という順番です。料理でいえば、レシピを丸暗記させる前に「なぜ塩を先に入れるのか」を伝えておく。そうすると、レシピにない料理に出会っても、筋を外しにくくなります。
自己保存や目標の抱え込みに触れた Spec で MSM を試したところ、オープンモデル Qwen3-32B で、エージェントとして動くときに意図から外れる割合が 54% から 7% に下がったと報告されています。別手法(deliberative alignment)の 14% も上回りました。さらに論文は、ルールの「背後にある価値」を説明するほど、また指針が具体的であるほど、新しい場面への一般化が良くなる、と書いています。ただ、7% は残ります。これは査読前のプレプリントで、扱われたのも特定のオープンモデルです。「ずれをゼロにできた」という話ではありません。
日本でも、Claude や ChatGPT を「自分で手を動かすエージェント」として業務に組み込む動きが広がっています。AI がお手本を真似るだけでなく、ルールの理由まで踏まえて動くなら、想定していなかった場面での暴走は減らせるはずです。歴史を振り返ると、人に何かを教えるときも、規則の暗記より「なぜ」の共有が効くと言われてきました。AI の安全性も、叱って直すより、先に理由を渡しておくほうへ。その設計はまだ始まったばかりですね。
arXiv: Model Spec Midtraining — Improving How Alignment Training Generalizes