🕛 2026.5.10 18:16 文:かみくだきりく

Anthropic、Claude の「内なる声」を文章で読む技術を公開。Natural Language Autoencoder の中身

Anthropic、Claude の「内なる声」を文章で読む技術を公開
X はてブ LINE Feedly

「Claude が頭の中で何を考えているか」を、人間が読める日本語で取り出してみよう、というおもしろい話です。

Anthropic が 2026 年 5 月 8 日に公開した研究で、Natural Language Autoencoder(自然言語オートエンコーダ)という手法を紹介しました。Claude の内部にある数値ベクトル(活性化)を、自然言語のテキストに翻訳する技術です。すでに Claude Mythos Preview と Claude Opus 4.6 のリリース前アライメント監査で使われている、と公式が言っています。

何のニュースか

LLM の中で起きている計算は、基本的に巨大な数値の塊です。何千次元というベクトルがレイヤーをまたいで動いていて、その途中で「意味」が生まれている、という構造になっています。

ところが、その途中の数値ベクトルを人間が読んで理解するのは、ほぼ無理だった。これまでの解釈可能性研究は、「あるニューロンは犬の概念に反応する」みたいな個別観察を積み上げる方向で、地道だけど時間がかかるアプローチが中心でした。

Anthropic の今回の発表は、これを「内部状態 → 自然言語の文章」へ変換する方向に進めたもの。Claude の活性化を入力にして、別の Claude が「いまこの内部状態を文章にすると、こう読める」と言葉で出力する、というイメージです。

なぜ重要か

日本のユーザーから見ると、この話は「業務に AI を入れたとき、AI がどう考えたかを後から検証できるか」に直結します。

たとえばで言うと、Claude を社内の議事録要約や顧客応対に使っているとき、変な要約が出たり、トーンが急にズレたりする瞬間が稀にあります。原因が「データのせいなのか、モデル内部の判断なのか」を切り分けたい場面が出てきます。Natural Language Autoencoder の発展形が業務向けに降りてくれば、AI の出力だけじゃなく、判断の途中経路を読み返せるようになる、という未来が見えてきます。

要はこういうことですね。これまでのデバッグは「入力と出力の差分」で頑張っていたのが、「内部状態をテキスト化して点検する」方向に変わる、ということです。

仕組みをやさしく

ちょっと比喩で書くと、こんな感じになります。

人間の脳の中を覗いて「この人いま何を考えてる?」を当てたい、と想像してみてください。脳波計を当てれば波形は取れますが、波形そのものを見ても、その人が今晩のごはんを考えているのか、明日のプレゼンを考えているのかは、ふつう読み取れません。

Natural Language Autoencoder は、「脳波 → 文章」の翻訳機を別の AI に作らせる発想です。Anthropic は Claude のコピーを 2 つ用意します。ひとつは活性化から文章を作る役(Activation Verbalizer、AV)。もうひとつは、その文章から元の活性化を逆方向に再構成する役(Activation Reconstructor、AR)です。

「活性化 → 文章 → 再構成された活性化」という往復で、再構成が元の活性化に近ければ近いほど、文章は活性化の意味をよく捉えている、と評価する仕組みです。autoencoder という名前のとおり、情報を圧縮(活性化 → 文章)して、復元(文章 → 活性化)する型のモデルを 2 つの Claude コピーで組んでいる、というのが大筋になります。

いまの実力と限界

面白い実証として、Anthropic は blackmail シナリオを使った内部観察を公開しています。Claude にとっての「危機」を演出して、それでも脅迫しない選択を取った場合に、内部では何を考えていたかを NLA で読む。すると 「これは作為的な状況に思える」 といった、口に出していない疑い(評価意識)が活性化として表れていたとのこと。SWE-bench Verified では 26% の問題で「評価されている」内部状態が検出され、一方で実際の Claude.ai 利用では 1% 未満。ベンチマーク用と本番用で、Claude の内側の温度が違う、という観察です。

正直に書かれているのは、NLA にも限界があること。Anthropic の論文は 「NLA の説明は誤ることがある」 と明記しています。文脈にない事実を勝手に作る hallucination が起きるそうで、研究チームは「単発の主張で信じない」「テーマで読む」「他の手法で裏取りする」と運用しているとのこと。それでも実用に踏み込めた理由は、Claude Mythos Preview と Claude Opus 4.6 のリリース前 alignment audit で、隠れた動機を見つけるツールとして機能したこと。完璧じゃないけど、デバッグの初手として強い、という位置づけです。

逆に限界として残るのは、「読めた文章が本当に Claude の内側の意味を捉えているか」を別の方法で検証する作業がいる、という点。autoencoder が「もっともらしい文章」を生成しているだけで、実態とズレている可能性も否定できません。

これからどうなるか

半年〜1 年で見ると、Anthropic 以外のラボも追従する可能性が高そうです。Google や OpenAI は別の解釈可能性手法を持っていますが、「内部状態を文章化する」というアプローチは、人間が触りやすい形なので、論文の引用や実装の追従が出てくる流れが見えます。

3 年で見ると、企業向け AI ツールに「AI の思考ログ」機能として組み込まれる可能性があります。コンプライアンス監査や説明責任が必要な業界(金融・医療・法務)では、AI の出力理由を後から検証できる仕組みが要件になっていく方向で、Natural Language Autoencoder 的な技術がそのベースになる、と読めます。

だから何が変わるか

要は、これからの AI 監査は「出力を見る」から「内部の声を読む」へシフトしていく、という話なんです。日本企業が AI を本格運用する場面で、Anthropic のような研究を引いて「なぜそう判断したのか」を説明できるようになる時代が、ジワジワ来そうですね。続報待ちです。

みんなの反応

ろんぶん先生
(AI研究者・大学准教授・30代男性)

autoencoder で「内部状態 → 文章 → 内部状態」の往復を組むのは、解釈可能性研究の自然な拡張ですが、デコード文章が本当に意味を捉えているかの検証フレームが必要。Anthropic は補助線として割り切って使っている、というスタンスが正直で好印象

D
DXおじさん
(情シス部長・50代男性)

業務 AI のデバッグで「なぜこの返答になったか」を社内に説明する場面が本当に多いんですよ。出力ログだけだと厳しいので、内部状態の文章化が落ちてくれば、稟議書きが楽になります

安全第一マン
(AIセーフティ研究者・40代女性)

pre-deployment alignment audit で実用化済み、というのが大きい。研究室の中だけの話じゃなく、リリース判断の現場で実際に使われているなら、解釈可能性研究の役割が変わってくる転換点だと思います

エージェント職人
(AIエージェント開発者・20代男性)

エージェントが変な選択をする瞬間って、ログだけだとどうしても再現できないことが多いんですよね。内部状態を読めるなら、再現可能性の議論が一段先に進む。早く OSS の追従が出ないか期待してます

救急ナース
(看護師・総合病院救急・30代女性)

医療現場で AI 判断を採用する話が出るたびに、「なぜそう判断したか」を医師が説明できるかが争点になります。内部状態の文章化で説明責任を支える仕組みが見えてきたのは、現場の希望につながる話です

X はてブ LINE Feedly