命令黑名单
在执行前拦截危险的 Shell 命令(wget、curl 到外部 IP、nc、rm -rf 等)
AI Agent 基础设施的实时防护
概览
Security Shield 通过 4 个深度集成到 Agent 运行时的钩子,实时监控每次工具调用和 LLM 交互,在恶意命令执行前将其拦截。纯本地运行,零外部依赖。
威胁全景
AI Agent 面临着与传统软件完全不同的攻击面。这是我们的防护范围。
能力
在执行前拦截危险的 Shell 命令(wget、curl 到外部 IP、nc、rm -rf 等)
扫描每条传入消息中的越狱尝试和社会工程学模式
每次工具调用都记录到 security-audit.jsonl,含时间戳、Agent ID 和判决
通过 4 个生命周期钩子同步运行——在执行前介入,而不是执行后
架构
挂载 4 个生命周期事件——在运行时层面拦截每次工具调用和 LLM 消息。无外部 API 调用,完全本地,零依赖。
before_tool_call 执行前拦截并验证 after_tool_call 审计结果并标记异常 llm_input 扫描传入消息中的注入模式 llm_output 检查传出响应中的数据泄露 防护范围
六个专用模块,各自针对不同攻击类型——全部本地运行,开销可忽略不计。
在所有外部数据进入 LLM 上下文之前为其打标签,使注入的指令可见,并与合法系统提示区分开来。
防御对象
将每次工具调用和告警以仅追加 JSONL 格式记录到文件,含时间戳、Agent ID 和判决。不可篡改的审计追踪。
防御对象
在 Shell 层面强制执行命令黑名单,在危险二进制文件(wget、nc、rm -rf 等)执行前将其拦截。
防御对象
使用基于正则表达式的启发式方法,扫描传入提示中的注入模式,以及传出响应中的密钥和恶意 URL。
防御对象
使用 HMAC-SHA256 对所有跨 Agent 消息进行签名,并在收到时验证签名,防止多 Agent 管道中的消息篡改。
防御对象
对每次内存写入应用白名单和注入检测,防止持久后门跨会话存活。
防御对象
即将上线
第一时间获知此插件上线。