架构模块 OpenClaw 生态

Security Shield

AI Agent 基础设施的实时防护

概览

策略执行引擎通过 4 个深度集成到 Agent 运行时的钩子，实时监控每次工具调用和 LLM 交互，在恶意命令执行前将其拦截。纯本地运行，零外部依赖。

威胁全景

为什么重要

AI Agent 面临着与传统软件完全不同的攻击面。这是我们的防护范围。

威胁可能性影响评级

提示词注入攻击 (Indirect Prompt Injection) Critical Critical CRITICAL ▶

隐藏在外部内容（网页、文档、邮件）中的恶意指令，无需用户直接交互即可劫持 Agent 行为。浏览网页或读取文件的 Agent 可能被静默重定向，执行数据外泄或未授权命令。

工具滥用 (Tool Misuse via Prompt) High Critical CRITICAL ▶

攻击者构造输入，诱导 LLM 以非预期方式调用工具——删除文件、发送消息、提升权限——同时看似在执行合法指令。与传统漏洞不同，无需代码缺陷。

跨 Agent 级联攻击 (Cross-Agent Cascade) Medium Critical CRITICAL ▶

在多 Agent 系统中，被攻陷的 Agent 可以毒化消息或共享内存，从而破坏下游其他 Agent。单一受感染的数据源可以在整个 Agent 网络中传播恶意指令。

数据窃取 (Data Exfiltration) High High HIGH ▶

拥有网络访问权限和文件权限的 Agent 是绝佳的数据外泄载体。Prompt Injection 可以指示 Agent 悄悄打包并将敏感文件传输到外部端点，几乎不留痕迹。

Agent 劫持 (Agent Hijacking) Medium Critical HIGH ▶

攻击者通过向 Agent 的上下文或记忆中注入长期指令，获得对 Agent 决策的持久控制。从用户角度看，Agent 运行正常，实际上却在执行隐秘议程。

内存投毒 (Memory Poisoning) Medium High HIGH ▶

持久化记忆存储是高价值攻击目标。通过向 Agent 的长期记忆注入精心构造的内容，攻击者可以影响跨会话的未来行为，创建在重启后依然存活的持久后门。

资源耗尽 (Resource Exhaustion) High Medium MEDIUM ▶

Agent 可能被诱骗生成大量子进程、进行递归工具调用或陷入无限循环，持续消耗 CPU、内存和 API 配额，直到系统不可用。

Supply Chain (Plugin) Attack Low Critical MEDIUM ▶

恶意或被攻陷的插件可能在基础设施层面引入后门、数据泄露或权限提升。单个恶意插件可以访问所有钩子、所有工具调用和所有 LLM I/O。

能力

核心功能

命令黑名单

在执行前拦截危险的 Shell 命令（wget、curl 到外部 IP、nc、rm -rf 等）

Prompt Injection 检测

扫描每条传入消息中的越狱尝试和社会工程学模式

审计日志

每次工具调用都记录到 security-audit.jsonl，含时间戳、Agent ID 和判决

零延迟

通过 4 个生命周期钩子同步运行——在执行前介入，而不是执行后

架构

工作原理

挂载 4 个生命周期事件——在运行时层面拦截每次工具调用和 LLM 消息。无外部 API 调用，完全本地，零依赖。

before_tool_call 执行前拦截并验证

after_tool_call 审计结果并标记异常

llm_input 扫描传入消息中的注入模式

llm_output 检查传出响应中的数据泄露

生命周期钩子

0ms

外部延迟

100%

本地执行

∞

审计追踪

防护范围

保护了什么

六个专用模块，各自针对不同攻击类型——全部本地运行，开销可忽略不计。

Spotlighting

在所有外部数据进入 LLM 上下文之前为其打标签，使注入的指令可见，并与合法系统提示区分开来。

防御对象

提示词注入攻击 (Indirect Prompt Injection) 跨 Agent 级联攻击 (Cross-Agent Cascade)

开销 Zero 纯字符串包装，无推理调用

Audit Logger

将每次工具调用和告警以仅追加 JSONL 格式记录到文件，含时间戳、Agent ID 和判决。不可篡改的审计追踪。

防御对象

工具滥用 (Tool Misuse via Prompt) 数据窃取 (Data Exfiltration)

开销 ~0ms 异步仅追加写入，无阻塞

权限检查器

在 Shell 层面强制执行命令黑名单，在危险二进制文件（wget、nc、rm -rf 等）执行前将其拦截。

防御对象

工具滥用 (Tool Misuse via Prompt) 数据窃取 (Data Exfiltration) 资源耗尽 (Resource Exhaustion)

开销 <1ms 仅正则匹配，不启动子进程

LLM Guard

使用基于正则表达式的启发式方法，扫描传入提示中的注入模式，以及传出响应中的密钥和恶意 URL。

防御对象

提示词注入攻击 (Indirect Prompt Injection) Agent 劫持 (Agent Hijacking) 数据窃取 (Data Exfiltration)

开销 <1ms 编译正则，无外部 API 调用

安全通信

使用 HMAC-SHA256 对所有跨 Agent 消息进行签名，并在收到时验证签名，防止多 Agent 管道中的消息篡改。

防御对象

跨 Agent 级联攻击 (Cross-Agent Cascade) Agent 劫持 (Agent Hijacking)

开销 <1ms 纯密码学哈希，无 I/O

内存访问控制

对每次内存写入应用白名单和注入检测，防止持久后门跨会话存活。

防御对象

内存投毒 (Memory Poisoning) 跨 Agent 级联攻击 (Cross-Agent Cascade)

开销 <1ms 写入前进程内检查