
AIエージェントに仕事を任せる前に、考えておきたいことが1つある。「もしこのエージェントが乗っ取られたら、どこまで暴走できるのか」だ。Google DeepMind が6月18日に公開した「AI Control Roadmap(AI制御のロードマップ)」は、まさにその問いから設計されている、と説明している。
これまで AI の安全対策といえば、モデル自体を「正しく振る舞うように躾ける」整合(アライメント)が中心だった。今回 DeepMind が打ち出したのは、その整合が不完全でも被害を抑える「二段目の防御」だ。現場目線で言うと、鍵をかけたうえで、もし破られても被害が広がらないよう監視カメラと非常停止ボタンを足しておく、という発想に近い。
ロードマップの根っこにあるのは、配備したエージェントを、企業のセキュリティ担当が新しく入った権限持ちの社員に向けるのと同じ目線で扱う、という考え方だ。つまり「悪意がなくても乗っ取られることがある」と最初から想定する。具体策として、信頼できる別の AI を「監督役(Supervisor Agent)」に置いてエージェントの推論と行動を実行中に見張り、エージェント専用のID管理や文脈に応じたアクセス制御、重要コードのサプライチェーン管理、いざというときの非常停止(shutdown infrastructure)を用意する。脅威の分類は、サイバー攻撃の手口を体系化した MITRE ATT&CK の考え方を下敷きにしている、とのことだ。
監視は一律ではない。検知レベルを D1 から D4、対応レベルを R1 から R3 に分け、モデルの能力が上がるほど強い監視と制御を当てる設計になっている、と説明されている。問題はここで、能力が高いエージェントほど被害も大きくなりうるから、能力に比例して防御を厚くする、という順序の付け方だ。DeepMind は社内で100万件規模というコーディングエージェントの行動履歴(軌跡)を分析し、実運用の監視に活かしたとも伝えている。机上の理屈だけではない、という点は評価したい。
同時に公開された政策担当者向けの技術文書『Three Layers of Agent Security(エージェント安全性の3つの層)』では、守るべき範囲を、個々のエージェント・複数エージェントの連携・デジタル基盤全体の3層に分けている。これは実際の運用で起きている失敗の場所に対応している。たとえば、存在しないツールを呼び出してしまう幻覚、エージェント同士が指示を増幅し合う暴走、なりすましによる供給網の乗っ取り。リスクは複数ある、というのを層で見える化したわけだ。
日本の現場にとっても、これは他人事ではない。社内向けに AI エージェントを入れる企業が増えるなか、「モデルが賢いかどうか」だけを見て導入を決めると、乗っ取られたときの被害想定が抜け落ちる。規制の文脈で言うと、運用時の監視を高リスク用途で求める EU の AI 規制の流れとも噛み合う話だ。見落としがちだけど、安全はモデル単体ではなく、それを動かす仕組み全体で設計するもの——今回のロードマップは、その当たり前を地図にしてくれた。あくまで DeepMind 一社の提案で標準が決まったわけではないが、自社でエージェントを動かすなら、監視と非常停止をどう持つかは今のうちに考えておきたい。
情報元: Securing the future of AI agents(Google DeepMind)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。