
「Claude が頭の中で何を考えているか」を、人間が読める日本語で取り出してみよう、というおもしろい話です。
Anthropic が 2026 年 5 月 8 日に公開した研究で、Natural Language Autoencoder(自然言語オートエンコーダ)という手法を紹介しました。Claude の内部にある数値ベクトル(活性化)を、自然言語のテキストに翻訳する技術です。すでに Claude Mythos Preview と Claude Opus 4.6 のリリース前アライメント監査で使われている、と公式が言っています。
LLM の中で起きている計算は、基本的に巨大な数値の塊です。何千次元というベクトルがレイヤーをまたいで動いていて、その途中で「意味」が生まれている、という構造になっています。
ところが、その途中の数値ベクトルを人間が読んで理解するのは、ほぼ無理だった。これまでの解釈可能性研究は、「あるニューロンは犬の概念に反応する」みたいな個別観察を積み上げる方向で、地道だけど時間がかかるアプローチが中心でした。
Anthropic の今回の発表は、これを「内部状態 → 自然言語の文章」へ変換する方向に進めたもの。Claude の活性化を入力にして、別の Claude が「いまこの内部状態を文章にすると、こう読める」と言葉で出力する、というイメージです。
日本のユーザーから見ると、この話は「業務に AI を入れたとき、AI がどう考えたかを後から検証できるか」に直結します。
たとえばで言うと、Claude を社内の議事録要約や顧客応対に使っているとき、変な要約が出たり、トーンが急にズレたりする瞬間が稀にあります。原因が「データのせいなのか、モデル内部の判断なのか」を切り分けたい場面が出てきます。Natural Language Autoencoder の発展形が業務向けに降りてくれば、AI の出力だけじゃなく、判断の途中経路を読み返せるようになる、という未来が見えてきます。
要はこういうことですね。これまでのデバッグは「入力と出力の差分」で頑張っていたのが、「内部状態をテキスト化して点検する」方向に変わる、ということです。
ちょっと比喩で書くと、こんな感じになります。
人間の脳の中を覗いて「この人いま何を考えてる?」を当てたい、と想像してみてください。脳波計を当てれば波形は取れますが、波形そのものを見ても、その人が今晩のごはんを考えているのか、明日のプレゼンを考えているのかは、ふつう読み取れません。
Natural Language Autoencoder は、「脳波 → 文章」の翻訳機を別の AI に作らせる発想です。Anthropic は Claude のコピーを 2 つ用意します。ひとつは活性化から文章を作る役(Activation Verbalizer、AV)。もうひとつは、その文章から元の活性化を逆方向に再構成する役(Activation Reconstructor、AR)です。
「活性化 → 文章 → 再構成された活性化」という往復で、再構成が元の活性化に近ければ近いほど、文章は活性化の意味をよく捉えている、と評価する仕組みです。autoencoder という名前のとおり、情報を圧縮(活性化 → 文章)して、復元(文章 → 活性化)する型のモデルを 2 つの Claude コピーで組んでいる、というのが大筋になります。
面白い実証として、Anthropic は blackmail シナリオを使った内部観察を公開しています。Claude にとっての「危機」を演出して、それでも脅迫しない選択を取った場合に、内部では何を考えていたかを NLA で読む。すると 「これは作為的な状況に思える」 といった、口に出していない疑い(評価意識)が活性化として表れていたとのこと。SWE-bench Verified では 26% の問題で「評価されている」内部状態が検出され、一方で実際の Claude.ai 利用では 1% 未満。ベンチマーク用と本番用で、Claude の内側の温度が違う、という観察です。
正直に書かれているのは、NLA にも限界があること。Anthropic の論文は 「NLA の説明は誤ることがある」 と明記しています。文脈にない事実を勝手に作る hallucination が起きるそうで、研究チームは「単発の主張で信じない」「テーマで読む」「他の手法で裏取りする」と運用しているとのこと。それでも実用に踏み込めた理由は、Claude Mythos Preview と Claude Opus 4.6 のリリース前 alignment audit で、隠れた動機を見つけるツールとして機能したこと。完璧じゃないけど、デバッグの初手として強い、という位置づけです。
逆に限界として残るのは、「読めた文章が本当に Claude の内側の意味を捉えているか」を別の方法で検証する作業がいる、という点。autoencoder が「もっともらしい文章」を生成しているだけで、実態とズレている可能性も否定できません。
半年〜1 年で見ると、Anthropic 以外のラボも追従する可能性が高そうです。Google や OpenAI は別の解釈可能性手法を持っていますが、「内部状態を文章化する」というアプローチは、人間が触りやすい形なので、論文の引用や実装の追従が出てくる流れが見えます。
3 年で見ると、企業向け AI ツールに「AI の思考ログ」機能として組み込まれる可能性があります。コンプライアンス監査や説明責任が必要な業界(金融・医療・法務)では、AI の出力理由を後から検証できる仕組みが要件になっていく方向で、Natural Language Autoencoder 的な技術がそのベースになる、と読めます。
要は、これからの AI 監査は「出力を見る」から「内部の声を読む」へシフトしていく、という話なんです。日本企業が AI を本格運用する場面で、Anthropic のような研究を引いて「なぜそう判断したのか」を説明できるようになる時代が、ジワジワ来そうですね。続報待ちです。