🕛 2026.6.9 18:19 文:かみくだきりく

AIが自分の文章を98%言い当てる。残差に『指紋』を仕込む自己認識の研究

AIが自分の文章を98%言い当てる。残差に『指紋』を仕込む自己認識の研究
X はてブ LINE Feedly

AI が書いた文章かどうか、当の AI 自身に聞いてみたら一番よく分かった、という話です。

少し不思議に聞こえるかもしれません。出どころは arXiv に出た「LLM Self-Recognition: Steering and Retrieving Activation Signatures」という論文(arXiv:2606.06315、ICML 2026 に採録)。大規模言語モデル(LLM)が、自分で生成した文章を「これは自分が書いたものだ」と内部の表現から見分けられる、という報告です。公開は 6 月 4 日でした。

ざっくり言うと、これまで AI 生成文の検出は「外から眺める」やり方が主流でした。出力された文章だけを見て、言い回しのクセや統計的な偏りから「たぶん AI 製」と推測する。けれどこのやり方は、文章を少し書き換えられると途端に当たらなくなる弱さがありました。今回の論文は、その視点を内側に引っくり返しています。

残差ストリームに、薄い「指紋」を一本だけ仕込む

仕組みのキモは、生成のさなかにモデルの内部へ小さな目印を埋め込むところにあります。

LLM の中には「残差ストリーム」と呼ばれる、計算の途中経過が流れていく通り道があります(ものすごく雑に言うと、モデルが考えている最中の頭の中の配線です)。論文では、文章を生成するときにこの配線へ、疎な——つまりごくまばらな——ランダムなベクトルをそっと注ぎ込みます。これが「操舵(steering)」と呼ばれる操作で、結果として出力された文章には、人間の目には見えない指紋のようなものが残る。

たとえるなら、自分の書いた手紙に、紫外線ライトでしか見えないインクで小さなサインを入れておくようなものです。読む人には普通の手紙にしか見えないけれど、ライトを当てれば「確かに自分が書いた」と分かる。しかもこのサイン、文章の中身や読み心地を崩さずに入れられる、というのが今回の肝心なところでした。

98% を当てて、それでいて文章は崩れない

数字を一つだけ覚えるなら、98% です。論文によれば、複数の検出設定にわたって、その文章がどのモデルから出たかを当てる帰属精度が 98% を超えたとのこと。しかも、指紋を埋め込んでも生成された文章の品質は劣化しなかったと報告しています。

検出率が高いだけなら、これまでの手法でも条件次第では出せました。ここで効いているのは「書き換えに強そうな仕掛けを、品質を犠牲にせず埋められた」という組み合わせのほうです。外から統計を眺めるのではなく、作る側が最初から目印を仕込んでおく。だから後から消されにくい、という理屈になります。

検出の主導権が、文章を作る側へ移っていく

これ、見方を変えると、AI 生成文を「見分ける」主導権が、誰の手に移るかという話でもあります。

これまでは検出ツールを作る第三者が、後追いで AI 製かどうかを判定していました。今回の方向だと、モデルを提供する側が生成の瞬間に目印を入れておける。日本でも、学校のレポートが AI 製かどうか、ニュースやレビューが自動生成されたものかどうか、といった場面で「後から見分ける」苦労が続いてきました。作る側が最初から印を付けられるなら、その負担の構図そのものが変わってきます。

ただ、急がなくていい論点も残っています。指紋を入れられるのは基本的にモデルを動かす側であって、悪意を持って印を入れない、あるいは別の手で消す動きにどこまで耐えるのか。プレプリントの段階なので、ここはこれから検証が積み上がっていくところです。誰がこの操舵のスイッチを握るのか、という設計の話も含めて、続報待ちですね。

それでも、「AI を見分けるなら、AI の頭の中をのぞくのが近道」という発想の転換は、地味に効いてくる気がします。

情報元: LLM Self-Recognition: Steering and Retrieving Activation Signatures (arXiv:2606.06315)

みんなの反応

ぬるぽ
(システムエンジニア・30代男性)

外から統計で当てるんじゃなくて、生成のときに残差へ目印を仕込むという発想が綺麗です。書き換え耐性の話まで踏み込んでるのが現実的。ただ結局は印を入れられるのがモデル提供側だけなので、消す側との追いかけっこになりそう。ここからの検証が本番だと思います。
ひまわり先生
(小学校教師・20代女性)

作文や読書感想文を見ていて、これAIかな?と迷う場面が増えていたので、見分けの主導権が作る側に移るかも、というところに希望を持ちました。私たち現場の人間が一つずつ判定するのは無理があるので。紫外線インクのたとえ、子どもにも説明しやすそうです。
えかきのたまご
(フリーランスイラストレーター・20代女性)

文章の話だけど、絵の世界でも「これAI生成?」って疑われて消耗することが多いので他人事じゃないです。作った側が最初から印を残せるなら、逆に「これは人が描いた」も証明しやすくなる日が来るのかな、と少し前向きになれました。品質が落ちないっていうのも大事ですよね。
みさきの美容室
(美容師/SNSインフルエンサー・20代女性)

SNSやってると、明らかにAIが量産した口コミとかバズ狙いの文章が流れてきて、お客さんも惑わされてるなと感じます。98%で見分けられるって聞くとすごいけど、悪い人は印を入れないだろうし、そこはどうなんだろう?と思いました。記事がちゃんとそこも書いててフェアでした。
ご隠居さん
(元落語家・60代男性)

芸の世界でも、本人にしか出せない「クセ」ってのがありましてな。それを当人が一番よく分かってる、ってのは妙に納得しましたよ。機械が自分の手癖を見分けるとは、面白い時代になったもんだ。難しい話は分からんが、慌てず続きを見ようという締めが気に入りました。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly