🐾 claw-stack
插件 OpenClaw 生态

Security Shield

AI Agent 基础设施的实时防护

概览

Security Shield 通过 4 个深度集成到 Agent 运行时的钩子,实时监控每次工具调用和 LLM 交互,在恶意命令执行前将其拦截。纯本地运行,零外部依赖。

威胁全景

为什么重要

AI Agent 面临着与传统软件完全不同的攻击面。这是我们的防护范围。

威胁 可能性 影响 评级
提示词注入攻击 (Indirect Prompt Injection) Critical Critical CRITICAL

隐藏在外部内容(网页、文档、邮件)中的恶意指令,无需用户直接交互即可劫持 Agent 行为。浏览网页或读取文件的 Agent 可能被静默重定向,执行数据外泄或未授权命令。

工具滥用 (Tool Misuse via Prompt) High Critical CRITICAL

攻击者构造输入,诱导 LLM 以非预期方式调用工具——删除文件、发送消息、提升权限——同时看似在执行合法指令。与传统漏洞不同,无需代码缺陷。

跨 Agent 级联攻击 (Cross-Agent Cascade) Medium Critical CRITICAL

在多 Agent 系统中,被攻陷的 Agent 可以毒化消息或共享内存,从而破坏下游其他 Agent。单一受感染的数据源可以在整个 Agent 网络中传播恶意指令。

数据窃取 (Data Exfiltration) High High HIGH

拥有网络访问权限和文件权限的 Agent 是绝佳的数据外泄载体。Prompt Injection 可以指示 Agent 悄悄打包并将敏感文件传输到外部端点,几乎不留痕迹。

Agent 劫持 (Agent Hijacking) Medium Critical HIGH

攻击者通过向 Agent 的上下文或记忆中注入长期指令,获得对 Agent 决策的持久控制。从用户角度看,Agent 运行正常,实际上却在执行隐秘议程。

内存投毒 (Memory Poisoning) Medium High HIGH

持久化记忆存储是高价值攻击目标。通过向 Agent 的长期记忆注入精心构造的内容,攻击者可以影响跨会话的未来行为,创建在重启后依然存活的持久后门。

资源耗尽 (Resource Exhaustion) High Medium MEDIUM

Agent 可能被诱骗生成大量子进程、进行递归工具调用或陷入无限循环,持续消耗 CPU、内存和 API 配额,直到系统不可用。

Supply Chain (Plugin) Attack Low Critical MEDIUM

恶意或被攻陷的插件可能在基础设施层面引入后门、数据泄露或权限提升。单个恶意插件可以访问所有钩子、所有工具调用和所有 LLM I/O。

能力

核心功能

命令黑名单

在执行前拦截危险的 Shell 命令(wget、curl 到外部 IP、nc、rm -rf 等)

Prompt Injection 检测

扫描每条传入消息中的越狱尝试和社会工程学模式

审计日志

每次工具调用都记录到 security-audit.jsonl,含时间戳、Agent ID 和判决

零延迟

通过 4 个生命周期钩子同步运行——在执行前介入,而不是执行后

架构

工作原理

挂载 4 个生命周期事件——在运行时层面拦截每次工具调用和 LLM 消息。无外部 API 调用,完全本地,零依赖。

before_tool_call 执行前拦截并验证
after_tool_call 审计结果并标记异常
llm_input 扫描传入消息中的注入模式
llm_output 检查传出响应中的数据泄露
4
生命周期钩子
0ms
外部延迟
100%
本地执行
审计追踪

防护范围

保护了什么

六个专用模块,各自针对不同攻击类型——全部本地运行,开销可忽略不计。

Spotlighting

在所有外部数据进入 LLM 上下文之前为其打标签,使注入的指令可见,并与合法系统提示区分开来。

防御对象

提示词注入攻击 (Indirect Prompt Injection) 跨 Agent 级联攻击 (Cross-Agent Cascade)
开销 Zero 纯字符串包装,无推理调用

Audit Logger

将每次工具调用和告警以仅追加 JSONL 格式记录到文件,含时间戳、Agent ID 和判决。不可篡改的审计追踪。

防御对象

工具滥用 (Tool Misuse via Prompt) 数据窃取 (Data Exfiltration)
开销 ~0ms 异步仅追加写入,无阻塞

权限检查器

在 Shell 层面强制执行命令黑名单,在危险二进制文件(wget、nc、rm -rf 等)执行前将其拦截。

防御对象

工具滥用 (Tool Misuse via Prompt) 数据窃取 (Data Exfiltration) 资源耗尽 (Resource Exhaustion)
开销 <1ms 仅正则匹配,不启动子进程

LLM Guard

使用基于正则表达式的启发式方法,扫描传入提示中的注入模式,以及传出响应中的密钥和恶意 URL。

防御对象

提示词注入攻击 (Indirect Prompt Injection) Agent 劫持 (Agent Hijacking) 数据窃取 (Data Exfiltration)
开销 <1ms 编译正则,无外部 API 调用

安全通信

使用 HMAC-SHA256 对所有跨 Agent 消息进行签名,并在收到时验证签名,防止多 Agent 管道中的消息篡改。

防御对象

跨 Agent 级联攻击 (Cross-Agent Cascade) Agent 劫持 (Agent Hijacking)
开销 <1ms 纯密码学哈希,无 I/O

内存访问控制

对每次内存写入应用白名单和注入检测,防止持久后门跨会话存活。

防御对象

内存投毒 (Memory Poisoning) 跨 Agent 级联攻击 (Cross-Agent Cascade)
开销 <1ms 写入前进程内检查

即将上线

加入候补名单

第一时间获知此插件上线。

加入候补名单