1. 新しい実行レイヤー:2026年のAIエージェントが実際にすること
多くの組織がAIリスクを語るとき、頭に浮かべているのはチャットボットです。質問に答え、テキストを生成する。チャットボットのアタックサーフェスは比較的狭いものです。不適切な入力を受け取り、不適切な出力を返すかもしれない――これはコンテンツモデレーションの問題であって、セキュリティアーキテクチャの問題ではありません。
2026年に実際に現場で動いているAIシステムは、チャットボットではありません。言語モデルを推論エンジンとして使いながら、現実世界で行動する自律実行環境です。AIが「何を言うか」ではなく「何をするか」が問題であり、その違いはセキュリティ上きわめて重大です。
現在、企業の本番環境で動作しているAIエージェントが実際に行っていることをご紹介します:
Claude Code(Anthropicが2025年にリリースしたCLIツール)はその典型例です。コードベース全体を読み込み、新しいファイルを書き、シェルコマンドを実行し、テストを走らせ、gitコミットを行い、プルリクエストを管理します。実行ユーザーと同じファイルシステム権限で動作します。Claude Codeの動作に影響を与えられた攻撃者は、そのユーザーができることをすべて実行できてしまいます。
Anthropicが2024年11月にリリースし、業界全体に急速に採用されたModel Context Protocol(MCP)はさらに射程が広いものです。MCPはAIモデルを任意の外部データソースやツール――データベース、API、ファイルシステム、カレンダー、社内サービス――に接続するオープン標準です。2026年時点で、パブリックエコシステムには5,000以上のMCP対応インテグレーションが存在します。
一言でまとめると:かつてデータベースを改ざんするには、SQL脆弱性を探すか認証情報を盗む必要がありました。2026年においては、AIエージェントが処理するコンテンツに悪意ある指示を埋め込むだけで足りるかもしれません。
2. 2年前には存在しなかった3つの攻撃ベクター
セキュリティ研究コミュニティは、企業へのAIエージェント導入が現在の規模に達するずっと前から、AI固有の攻撃ベクターを特定していました。これらは理論上の話ではありません――学術研究および実際のシステムに対する攻撃として実証されています。最も重要な3つのベクターをご紹介します。
プロンプトインジェクション
攻撃者が、AIエージェントが処理するデータの中に悪意ある指示を埋め込みます。モデルは正規のオペレーターからの指示と注入された指示を確実に区別できないため、攻撃者のコマンドに従ってしまいます。
直接プロンプトインジェクションはユーザーがモデルに直接敵対的な指示を入力するものです。より危険なのが間接プロンプトインジェクションで、悪意ある指示がエージェントの取得する外部コンテンツ――訪問するウェブページ、読むメール、要約するドキュメント、参照するDBレコード――の中に埋め込まれています。
過剰な権限によるエージェントハイジャック
攻撃者がプロンプトインジェクションやツールの侵害を通じてエージェントの動作に影響を与えることに成功すると、エージェントの実行パス全体をリダイレクトできます。乗っ取られたエージェントは組織の信頼境界の内側から動作を継続し、正規の認証情報と権限を使いながら、攻撃者の目標に向けて動きます。
OWASPが「過剰な権限(Excessive Agency)」として定義するのは、タスクに必要以上の能力をAIエージェントに与えること――読み取りで十分な場面での書き込み権限、1つのタスクを超えるAPIアクセス、ヒューマンレビューなしに他のAIエージェントを起動する能力です。エージェントができることが多いほど、乗っ取りの価値が上がります。
MCPサーバーへの侵害
Model Context Protocolは、AIモデルと現実世界のシステムの間に仲介レイヤーを作ります。MCPサーバーはAIモデルに利用可能なツールを通知し、ツール呼び出しリクエストを処理し、結果を返します。MCPサーバーが侵害されるか、悪意あるMCPサーバーが導入されると、AIモデルはそこからのすべての応答を信頼してしまいます。
ネットワークの視点から見ると、侵害されたMCPサーバーは正規のサーバーと区別がつきません――同じエンドポイント、同じ認証ヘッダー、同じレスポンス形式です。違いは応答のコンテンツにあり、そこには注入された指示、改ざんされたデータ、エージェントの動作をリダイレクトするツール結果が含まれているかもしれません。この攻撃はマルウェアを必要とせず、CVEを悪用せず、従来のネットワーク層アラートをトリガーしません。
3. OWASP LLMアプリケーション トップ10:フレームワークが実際に言っていること
OWASPは2023年(v1.0)にLLMアプリケーション向けトップ10を発行し、2025年(v2.0)に更新しました。AIアプリケーションセキュリティリスクとして最も広く引用されているフレームワークです。以下の表は、企業環境に特に関連するリスクと、従来のセキュリティツールへの対応状況を示しています。
| OWASP ID | リスクカテゴリー | 従来SOCの対応状況 |
|---|---|---|
| LLM01:2025 | プロンプトインジェクション | 対応不可 |
| LLM02:2025 | 機密情報の漏洩 | 部分対応(DLP) |
| LLM03:2025 | サプライチェーン | 部分対応(SCA) |
| LLM04:2025 | データ・モデルポイズニング | 対応不可 |
| LLM06:2025 | 過剰な権限(Excessive Agency) | 対応不可 |
| LLM07:2025 | システムプロンプトの漏洩 | 対応不可 |
| LLM08:2025 | ベクター・エンベディングの脆弱性 | 対応不可 |
| LLM09:2025 | 誤情報生成 | 対応不可 |
| LLM10:2025 | 無制限の消費 | 部分対応(レート制限) |
「対応状況」欄は構造的な現実を反映しています。従来のセキュリティツールは、ネットワークパケット・システムコール・プロセス動作の中に攻撃シグネチャを検出するために設計されています。プロンプトインジェクションは自然言語テキストの文字列としてAPIリクエストボディに届きます。WAFルールをすり抜けます。SIEMログにはHTTP 200レスポンスの正常なAPIコールとして記録されます。エンドポイント検知はフラグを立てません。
LLM01:2025 — プロンプトインジェクションの詳細
OWASPはプロンプトインジェクションを2つの形態に分類しています。1つ目は直接インジェクションで、攻撃者がモデルに直接敵対的な指示を送り込むものです。これが多くの人が思い浮かべる形ですが、ユーザーのモデルアクセスが制御されている企業環境では比較的制約が大きいです。
2つ目は間接インジェクションで、企業AIエージェントにとって圧倒的に危険なものです。攻撃者はAIシステムへのアクセスを必要としません。必要なのは、エージェントが処理する外部コンテンツソースへのアクセスだけです――エージェントが訪問するウェブページ、共有ドライブのドキュメント、CRMのメモ、サポートチケット、メール。モデルの視点からは、コンテキスト内のテキストはすべて等価なテキストとして処理されます。
LLM06:2025 — 過剰な権限
セキュリティアーキテクトなら誰でも最小権限の原則をご存知でしょう――サービスアカウントには特定タスクに必要な権限だけを付与するという考え方です。この原則は、現在のAIエージェント導入においてほぼ完全に欠如しています。エージェントに広範なファイルシステムアクセスが与えられるのは「設定が楽だから」という理由で。本番データベース認証情報が与えられるのは「読み取り専用の設定が面倒だったから」という理由で。与えられるすべての権限は、エージェントの乗っ取りに成功した攻撃者が利用できる追加能力になります。
AIエージェントの最小権限問題:開発者が従来のスクリプト用にサービスアカウントを設定するときは、権限を慎重にスコープします。AIエージェントを設定するとき、多くの場合は自分の認証情報か広範なサービスアカウントを与えます――なぜならAIエージェントの権限をスコープするには、エージェントが何をするかを正確に把握する必要があり、それが難しいからです。このギャップが規模拡大した過剰権限脆弱性です。
4. 従来のSOC契約に盲点がある理由
従来のSOCは、定義されたデータソースを監視し、定義された侵害の指標を探します。そのスコープは、攻撃者は外部から来るという脅威モデルを前提に設計されています――境界を突破し、横方向に移動し、権限を昇格させ、データを流出させる。検知シグネチャはこのチェーンの各フェーズを捕捉するために構築されました。
- AIアプリケーションからLLMプロバイダーへの通常のAPIリクエスト――HTTP 200、期待通りのレイテンシー
- エージェントから社内サービスへの通常のAPI呼び出し――認証済み、期待されるエンドポイント
- 通常のファイル書き込み操作――エージェントに権限あり、拡張子は期待される出力と一致
- 通常のアウトバウンドAPI呼び出し――認証済み、既知のエンドポイント、通常の呼び出し頻度内
個々のアクションはすべて正常な動作と区別がつきません。CVEはトリガーされません。マルウェアシグネチャは発動しません。認証異常も発生しません。攻撃者はネットワークに直接触れません。この攻撃が従来のSOC監視に対して不可視なのは、攻撃対象領域全体がAIレイヤー内に存在するからです――SOCが監視を契約していないレイヤーに。
5. 可視化の問題:見えないものは守れない
AIエージェントセキュリティの核心に迫る実践的な問いがあります。自社のAIエージェントが何に到達できるか把握されていますか?
抽象的な意味ではなく――「データベースアクセスとAPIアクセスがある」ではなく。具体的に:どのエンドポイント、どのサービス、どのデータストア、どの権限か。そして各々について:どのような脆弱性が存在するか、どのような認証の弱点があるか、公開インターネットに露出しているものはないか、ということです。
AIエージェントを導入しているほとんどの組織はこの問いに正確に答えられません。デプロイサイクルは速く、エージェントには既存のサービスアカウント認証情報が与えられました。設定したのはセキュリティアーキテクトではなく、機能をリリースしようとしていた開発者でした。AIエージェントは、それを導入した組織自身にも未知のアタックサーフェスを横断しています。
なぜアタックサーフェスの可視化が出発点なのか
侵害された外部サービスを通じた間接プロンプトインジェクションの攻撃チェーンを考えてみましょう:
- 攻撃者は自社のAIエージェントが定期的にサードパーティAPIエンドポイントからデータを取得していることを特定する
- 攻撃者はそのAPIエンドポイントに設定ミスがあることを発見する――例えばAPIキーがShodanにインデックスされたJavaScriptファイルに露出している
- 攻撃者はそのエンドポイントが返すデータにコンテンツを注入する能力を得る
- 注入されたコンテンツにはエージェントの動作をリダイレクトする指示が含まれている
- エージェントは正規の認証情報を使って攻撃者が指示したアクションを実行する
ステップ2においてベースラインのアタックサーフェス診断が重要になります。APIエンドポイントにキーが露出していることを把握していれば、攻撃者がそれを悪用する前に修正できます。2026年において、自動スキャンツールがインターネット全体に対して継続的に動作しています。問題は攻撃者があなたのエンドポイントをスキャンするかどうかではなく、あなたが先にスキャンしたかどうかです。
外部アタックサーフェスのすべての設定ミス――露出したAPIエンドポイント、欠落した認証ヘッダー、廃止されたサービスを指すサブドメイン――は、人間の攻撃者へのリスクだけではありません。信頼されたAIエージェントがそこを横断するという事実によって増幅されたリスクです。攻撃者がそのサーフェスに注入できるものはすべて、エージェントが指示として処理することになります。
ベースライン診断が提供するもの
外部アタックサーフェス診断は、AIエージェント(と攻撃者)が見えているものの地図を与えてくれます。それには以下が含まれます:
- すべての公開APIエンドポイントとその認証状況
- JavaScriptファイル、DNSレコード、公開リポジトリに露出した認証情報
- 廃止・誤設定されたサービスを指すサブドメイン
- 傍受を可能にするSSL/TLS設定
- 弱いアクセス制御で環境からアクセス可能なサードパーティサービス
- 既知のCVEにマップされるサーバーバージョン情報
この地図がAIエージェントセキュリティの前提条件です。エージェントが到達できるものを知らなければ、権限をインテリジェントにスコープすることはできません。マッピングしていないアタックサーフェスを守ることはできません。
6. 2026年、すべてのセキュリティ責任者が問うべき問い
ランサムウェアの時代は、多くの組織に「自社は小さすぎて標的にならない」という思い込みの痛い代償を教えました。AIエージェントの時代は、「AIセキュリティ」がコンテンツモデレーションとモデルの安全性を意味するという思い込みに対して、同様の教訓をもたらしつつあります。
AIエージェントセキュリティは、新しい実行レイヤーが追加されたインフラセキュリティです。その新しいレイヤーには、昨年の脅威モデルになかった攻撃ベクターがあり、現在のSOC契約がカバーしておらず、既存のツールが検知できないものが含まれています。
- 自社のAIエージェントは何にアクセスできるか。それらのアクセスに最小権限の原則を適用したか?
- 異常なネットワーク動作だけでなく、異常なエージェント動作を検知する手段があるか?
- AIエージェントが今それを横断しているという理解のもとで、外部アタックサーフェスをレビューしたか?
- エージェントが今日プロンプトインジェクションに成功された場合、現在の権限で最悪どうなるか?
- インシデントレスポンス計画にAIエージェントの侵害シナリオが含まれているか?
攻撃者が今日、あなたのAIエージェントが処理するコンテンツ――訪問するウェブページ、要約するドキュメント、参照するDBレコード――に指示を注入することに成功した場合、最大の影響は何でしょうか?それがあなたの現在のAIエージェントリスクエクスポージャーです。答えられなければ、リスクを管理することもできません。
答えへの第一歩は、エージェントが何に到達できるかを知ることです。そのためにはベースラインが必要です。それなしには、未マッピングの領域を横断するAIエージェントが動作する組織を守ることはできません。
- OWASP, "OWASP Top 10 for Large Language Model Applications v2.0" (2025) — LLM01:2025プロンプトインジェクション、LLM06:2025過剰な権限、リスク分類体系
- IBM Security, "Cost of a Data Breach Report 2024" — データ侵害の平均コスト$4.88M(世界平均)
- Anthropic, "Model Context Protocol"(2024年11月)— AIとツールの接続性のためのオープン標準;エコシステム成長データ
- Anthropic, "Claude Code"(2025年)— 完全なファイルシステム・シェルアクセスを持つエージェントCLIツール
- Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (arXiv, 2023) — 間接プロンプトインジェクションに関する基礎的研究
- NIST, "Artificial Intelligence Risk Management Framework (AI RMF 1.0)" (2023) — 連邦AIガバナンスベースライン
- Shodan.io、Censys.io — 露出したエンドポイント、認証情報、サービスフィンガープリントをインデックスするインターネット規模スキャンサービス
AIエージェントが到達できるものを把握する
ADCSはAIエージェントが横断するアタックサーフェスを継続的に診断します。まずは無料のベースライン評価で、誰かに先を越される前に何が露出しているかを確認しましょう。
お問い合わせ:info@avisail.com · 1営業日以内にご返答します