🐾 claw-stack
プラグイン OpenClaw エコシステム

Security Shield

AI エージェントインフラへのリアルタイム防護

概要

Security Shield は、エージェントランタイムに深く組み込まれた4つのフックを通じ、すべてのツール呼び出しと LLM インタラクションをリアルタイムで監視し、悪意あるコマンドの実行前にブロックします。完全ローカル、外部依存ゼロ。

脅威の全体像

なぜ重要か

AI エージェントは従来のソフトウェアとは根本的に異なる攻撃対象領域を持ちます。これが私たちが防御する対象です。

脅威 可能性 影響 評価
間接プロンプトインジェクション Critical Critical CRITICAL

Webページ、文書、メールなどの外部コンテンツに埋め込まれた悪意ある指示が、ユーザーの直接操作なしにエージェントの動作を乗っ取ります。WebブラウジングやファイルRead中のエージェントが静かにデータ窃取や不正コマンドへ誘導される可能性があります。

プロンプトによるツール悪用 High Critical CRITICAL

攻撃者が入力を巧みに操作し、LLM に意図しない方法でツールを呼び出させます。ファイル削除、メッセージ送信、権限昇格など、正当な指示を実行しているように見せながら行われます。従来の脆弱性と異なり、コードの欠陥は不要です。

クロスエージェントカスケード攻撃 Medium Critical CRITICAL

マルチエージェントシステムにおいて、侵害されたエージェントがメッセージや共有メモリを汚染し、下流の他のエージェントを破壊します。単一の感染データソースが悪意ある指示をエージェントネットワーク全体に伝播させる可能性があります。

データ漏洩 High High HIGH

ネットワークアクセスとファイル権限を持つエージェントは、完璧な情報窃取ベクターです。プロンプトインジェクションにより、エージェントが機密ファイルをひっそりとバンドルして外部エンドポイントに送信する可能性があり、ほとんど痕跡が残りません。

エージェントハイジャック Medium Critical HIGH

攻撃者がエージェントのコンテキストやメモリに長期的な指示を注入することで、意思決定に対する持続的な制御を獲得します。ユーザーの観点からはエージェントが正常に動作しているように見えますが、実際には隠れたアジェンダを実行しています。

メモリポイズニング Medium High HIGH

永続的なメモリストアは高価値なターゲットです。エージェントの長期メモリに巧みに作成されたコンテンツを注入することで、攻撃者はセッションをまたいだ将来の動作に影響を与え、再起動後も生き残る持続的なバックドアを作成できます。

リソース枯渇 High Medium MEDIUM

エージェントが過剰なサブプロセスの生成、再帰的なツール呼び出し、無限ループに誘導され、CPUやメモリ、APIクォータを消費してシステムが利用不能になります。

Supply Chain (Plugin) Attack Low Critical MEDIUM

悪意ある、または侵害されたプラグインがインフラストラクチャレベルでバックドア、データ漏洩、権限昇格を引き起こす可能性があります。単一の不正プラグインがすべてのフック、すべてのツール呼び出し、すべての LLM I/O にアクセスできます。

機能

主な機能

コマンドブラックリスト

危険なシェルコマンド(wget、外部IPへのcurl、nc、rm -rf など)を実行前にブロック

Prompt Injection 検知

すべての受信メッセージからジェイルブレイク試みとソーシャルエンジニアリングパターンをスキャン

監査ログ

すべてのツール呼び出しをタイムスタンプ、エージェントID、判定付きで security-audit.jsonl に記録

ゼロレイテンシ

4つのライフサイクルフックで同期実行 — 実行後ではなく実行前にインターセプト

アーキテクチャ

仕組み

4つのライフサイクルイベントにフックし、ランタイムレベルですべてのツール呼び出しと LLM メッセージをインターセプトします。外部 API 呼び出しなし。完全ローカル。ゼロ依存。

before_tool_call 実行前にインターセプトして検証
after_tool_call 結果を監査し異常にフラグ
llm_input 受信メッセージのインジェクションパターンをスキャン
llm_output 送信レスポンスのデータ漏洩をレビュー
4
ライフサイクルフック
0ms
外部レイテンシ
100%
ローカル実行
監査証跡

カバレッジ

保護される対象

6つの専用モジュール、それぞれが異なる攻撃クラスを対象 — すべてローカルで実行し、オーバーヘッドは無視できるほど小さい。

Spotlighting

すべての外部データが LLM コンテキストに入る前にタグ付けし、注入された指示を可視化して正当なシステムプロンプトと区別します。

防御対象

間接プロンプトインジェクション クロスエージェントカスケード攻撃
オーバーヘッド Zero 純粋な文字列ラッピング、推論呼び出しなし

Audit Logger

すべてのツール呼び出しとアラートをタイムスタンプ、エージェントID、判定付きで追記専用 JSONL ファイルに記録します。改ざん不可能な監査証跡。

防御対象

プロンプトによるツール悪用 データ漏洩
オーバーヘッド ~0ms 非同期追記専用書き込み、ブロッキングなし

権限チェッカー

シェルレベルでコマンドブラックリストを強制し、危険なバイナリ(wget、nc、rm -rf など)を実行前にブロックします。

防御対象

プロンプトによるツール悪用 データ漏洩 リソース枯渇
オーバーヘッド <1ms 正規表現マッチのみ、サブプロセス起動なし

LLM Guard

正規表現ベースのヒューリスティックを使用して、受信プロンプトのインジェクションパターンと送信レスポンスのシークレット・悪意ある URL をスキャンします。

防御対象

間接プロンプトインジェクション エージェントハイジャック データ漏洩
オーバーヘッド <1ms コンパイル済み正規表現、外部API呼び出しなし

セキュア通信

HMAC-SHA256 ですべてのエージェント間メッセージに署名し、受信時に署名を検証することで、マルチエージェントパイプラインでのメッセージ改ざんを防ぎます。

防御対象

クロスエージェントカスケード攻撃 エージェントハイジャック
オーバーヘッド <1ms 純粋な暗号化ハッシュ、I/Oなし

メモリACL

すべてのメモリ書き込みにホワイトリストとインジェクション検出を適用し、永続的なバックドアがセッションをまたいで生き残るのを防ぎます。

防御対象

メモリポイズニング クロスエージェントカスケード攻撃
オーバーヘッド <1ms 書き込み前のインプロセスチェック

もうすぐリリース

ウェイトリストに参加

このプラグインのリリース時に最初にお知らせします。

ウェイトリストに参加