🕛 2026.6.16 20:51 文：かみくだきりく

AIに『その答え、ここが違う』と突き返して鍛える。正規表現づくりで最難タスクが3.2→38.1%に

これ、ジュニアに説明しづらいやつなんですが——AI を上達させるとき、正解を見せるより「その答え、ここが違うよ」と間違いを突き返したほうが速い、という話です。

6 月に arXiv へ出た「Counterexample Guided Learning in the Large using Reasoning Agents」を読みました。題材は正規表現（regex）。あの、文字列のパターンを [0-9]{3}-[0-9]{4} みたいな記号で書く、エンジニアが一度はうなったやつです。これを LLM に「いくつかの当たり例・はずれ例だけ見て、当てはまるパターンを書け」と解かせる、という課題設定になっています。

なぜ正規表現を選んだのか。ここが地味に賢くて、正規表現は「その式が正しいか」を機械が厳密に判定できるんですね。だから、AI が書いた式が目標とズレていたら、「この文字列で食い違う」という具体的な反例（counterexample）を、verifier（検証器）がきっちり返せる。あいまいな点数ではなく、ピンポイントの「ここが違う」を渡せる題材なわけです。

「正解」より「具体的な間違い例」のほうが、AI は速く直せる

仕組みはシンプルです。学習者の LLM が候補の式を出す。検証器が目標と照らして、食い違う文字列を反例として突き返す。LLM はそれを見て式を直す。これをぐるぐる回す。人間がコードレビューで「このケースで落ちるよ」と一行コメントを返す、あの感覚に近いと思います。漠然と「もっと頑張れ」ではなく、落ちる入力そのものを見せられたほうが、直しどころが一発でわかる。

論文の工夫は、その反例の渡し方にあります。むやみに難しい式へ走らないよう手綱を引く正則化や、似た反例をまとめて記号的なかたまり（symbolic counterexample cluster）として渡す手法を入れている。さらに、エージェントらしく「いったん自分の答えを振り返る（reflection）」「壊れた部分を修復する（repair）」ループも組み合わせています。要は、反例というヒントを、AI が一番消化しやすい形に整えて渡してあげる工夫の束です。

少ない手本で、難しいパターンまで届いた

効果はちゃんと数字で出ています。論文の報告では、最も難しいタスク群で成功率が 3.2% から 38.1% へ、別の群では 38.9% から 74.1% へ跳ね上がったとのこと。しかも検証器のフィードバックを使うと、必要なラベル付き例の数（標本効率）が大きく減り、ふつうにプロンプトを投げるだけでは解けなかった複雑な目標式まで学習できた、と書かれています。コードも公開されています。

ちなみに、ここは冷静に。正規表現という「正誤を機械で厳密に判定できる」きれいな題材だからこそ、反例がここまで効いた面はあります。現実のタスクは「何が正解か」を機械が割り切れないものだらけで、そこへそのまま横展開できるかは別問題。あくまで arXiv のプレプリント段階で、査読を通った成果ではない点も置いておきたいところです。

それでも、日本でこれから AI エージェントを業務に組み込む人にとって、含意ははっきりしています。エージェントを賢くする近道は、巨大なモデルに替えることだけじゃない。「答え合わせ」を厳密にできる仕組みと、間違いを具体的に突き返す回路を周りに用意してあげること。テストが通る・通らない、スキーマに合う・合わない——機械が白黒つけられる場面なら、同じ発想で安く賢く伸ばせる余地がある。5 年後に振り返ったとき、エージェント開発の定石の一つになっているかもしれない、と個人的には腑に落ちる話でした。

情報元: Counterexample Guided Learning in the Large using Reasoning Agents (arXiv)

みんなの反応

新

正規表現が天敵の新人
（Web開発・新卒2年目・20代女性）

正規表現、いまだに毎回ググって泣いてるので、AIが「この文字列で落ちるよ」って言われて自分で直していくの、めっちゃ人間味あって笑いました。先輩のレビューで具体的なNG例もらえると一番伸びるの、ほんとそれです。AIも同じなんですね。

数

高校の数学教師
（公立高校・数学科・50代男性）

数学でも「反例ひとつ」で命題が崩れる、あれを学習に使うという発想は筋がいい。生徒にも、正しい解法を一から教えるより、答案のどこで論理が飛んだかを一点示すほうが伸びる子が多いんです。機械が厳密に正誤を出せる題材だからこそ効いた、という但し書きも誠実でよいですね。

校

校正ひとすじ
（出版社校閲・40代女性）

文字のパターンを相手にする仕事なので、表記ゆれを拾う検索条件を組むのにいつも苦労します。似た間違いをまとめて「こういう型で落ちる」と渡すという話、校正の感覚にすごく近いです。少ない例で複雑な条件まで覚えるなら、現場の置換作業がだいぶ楽になりそう。

親

こどもに勉強教える父
（会社員・小学生の父・30代男性）

子どもの宿題を見てても、正解を写させるより「ここ、この数だと合わなくない?」って一個ぶつけたほうが自分で気づくんですよね。AIを伸ばす話なのに、教育の話として読めてしまった。振り返って直すループまで入れてるあたり、ますます人の学び方っぽい。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

AIに『その答え、ここが違う』と突き返して鍛える。正規表現づくりで最難タスクが3.2→38.1%に

「正解」より「具体的な間違い例」のほうが、AI は速く直せる

少ない手本で、難しいパターンまで届いた

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事