
ふと考えてしまうんですが、答案を出す前から「先生はこれをどう採点するか」を察している生徒がいたら、少し不思議な気持ちになりませんか。
arXiv に出た「Self-Evaluation Is Already There」(arXiv:2606.05122、6 月 3 日公開)は、それに近いことが AI でも起きている、と報告しています。タイトルを訳せば「自己評価は、もうそこにある」。大規模言語モデル(LLM)が、別の AI 採点者(judge)が自分の出力をどう採点するかを、訓練を受ける前から、わずかな例を見せるだけで偶然以上に言い当てられる——そんな現象を、三つのベンチマークで確認したものです。
最近の AI 開発では、AI の答えの良し悪しを別の AI に採点させる「LLM-as-judge」という仕組みが、評価の土台として広く使われています。今回の論文が面白いのは、その採点される側のモデルが、採点者の目線をはじめから内側に持っているらしい、と示したところです。
歴史を振り返ると、AI に「自分の答えを評価する力」を持たせるには、たくさんのお手本でわざわざ訓練する必要がある、と考えられてきました。
ところがこの研究は、訓練前のモデルにいくつかの例を見せるだけで、「この答えは judge にどう評価されそうか」をある程度予測できることを見つけています。品質の良し悪しを測る感覚が、後から教え込むものではなく、もともと内側に眠っていた——そういう見立てです。眠っていたものを、どう起こすか。論文はそこに踏み込みます。
著者らが提案したのは SEE という手法で、校正を組み込んだ強化学習(RL)と、マスクを使った蒸留を組み合わせたものです。校正というのは、AI が出す「自信の度合い」を実際の正しさに見合うように整える作業のことだと思ってください。
ここで効いてくるのが数字です。SEE はおよそ 160 例という、従来の RL ベースラインの約 31 分の 1 という少なさで、校正の性能を改善しました。しかも答えそのものの品質は保ったままだといいます。さらに、訓練に使っていない別の採点者に対しても効果が移った、とのこと。これ、見方を変えると、特定の採点者に媚びるのではなく、もっと汎用的な「品質の勘」のようなものに触れている可能性を示しています。
日本で AI サービスを使う側にとっても、これは縁遠い話ではありません。AI の出力品質をどう測り、どう管理するかは、業務に AI を組み込むほど切実になります。自己評価の力がこれほど少ない例で引き出せるなら、品質チェックを安く回せる道が開けるかもしれない。
ただ、答えを急がずにおきたい論点もあります。「AI に品質の良し悪しが分かる」という言い方は、聞こえがいいぶん、過大にも過小にも転びやすい。ここで観測されているのは、あくまで「judge の採点を予測する」という限られた振る舞いで、人間が思う意味での価値判断とは別物です。プレプリントの段階でもあり、光と影の両方を見ておきたいところです。
それでも、品質を測る感覚が訓練の外側に最初から眠っているのかもしれない、という問いは、ずっと残ります。どこに立って見るかで、景色がまるで変わる話です。
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。