コマンドブラックリスト
危険なシェルコマンド(wget、外部IPへのcurl、nc、rm -rf など)を実行前にブロック
AI エージェントインフラへのリアルタイム防護
概要
Security Shield は、エージェントランタイムに深く組み込まれた4つのフックを通じ、すべてのツール呼び出しと LLM インタラクションをリアルタイムで監視し、悪意あるコマンドの実行前にブロックします。完全ローカル、外部依存ゼロ。
脅威の全体像
AI エージェントは従来のソフトウェアとは根本的に異なる攻撃対象領域を持ちます。これが私たちが防御する対象です。
機能
危険なシェルコマンド(wget、外部IPへのcurl、nc、rm -rf など)を実行前にブロック
すべての受信メッセージからジェイルブレイク試みとソーシャルエンジニアリングパターンをスキャン
すべてのツール呼び出しをタイムスタンプ、エージェントID、判定付きで security-audit.jsonl に記録
4つのライフサイクルフックで同期実行 — 実行後ではなく実行前にインターセプト
アーキテクチャ
4つのライフサイクルイベントにフックし、ランタイムレベルですべてのツール呼び出しと LLM メッセージをインターセプトします。外部 API 呼び出しなし。完全ローカル。ゼロ依存。
before_tool_call 実行前にインターセプトして検証 after_tool_call 結果を監査し異常にフラグ llm_input 受信メッセージのインジェクションパターンをスキャン llm_output 送信レスポンスのデータ漏洩をレビュー カバレッジ
6つの専用モジュール、それぞれが異なる攻撃クラスを対象 — すべてローカルで実行し、オーバーヘッドは無視できるほど小さい。
すべての外部データが LLM コンテキストに入る前にタグ付けし、注入された指示を可視化して正当なシステムプロンプトと区別します。
防御対象
すべてのツール呼び出しとアラートをタイムスタンプ、エージェントID、判定付きで追記専用 JSONL ファイルに記録します。改ざん不可能な監査証跡。
防御対象
シェルレベルでコマンドブラックリストを強制し、危険なバイナリ(wget、nc、rm -rf など)を実行前にブロックします。
防御対象
正規表現ベースのヒューリスティックを使用して、受信プロンプトのインジェクションパターンと送信レスポンスのシークレット・悪意ある URL をスキャンします。
防御対象
HMAC-SHA256 ですべてのエージェント間メッセージに署名し、受信時に署名を検証することで、マルチエージェントパイプラインでのメッセージ改ざんを防ぎます。
防御対象
すべてのメモリ書き込みにホワイトリストとインジェクション検出を適用し、永続的なバックドアがセッションをまたいで生き残るのを防ぎます。
防御対象
もうすぐリリース
このプラグインのリリース時に最初にお知らせします。