今天介绍的这篇论文核心不是“OpenClaw 又爆了一堆洞”,而是想把 Agent 安全问题从零散事故、零散 CVE、零散攻击案例,抽象成一套更完整的安全分析框架。

作者用 OpenClaw 做案例,提出了一个“三层风险分类法”和一个“四层防御蓝图”。
智能体三层风险框架

▎AI与认知安全
对应模型的理解、推理、记忆和语义边界问题。
第一个是最典型的间接提示注入。作者举的例子很直白:让 Agent 去浏览网页并总结内容,网页里却藏了一段恶意文本,诱导它上传本地配置文件。问题不在于模型“看不懂”,而在于模型天然分不清“用户的主任务”与“网页局部内容中的恶意新指令”。
第二个是上下文压缩导致的指令失忆。论文引用了一个公开案例:Agent 在处理超长邮件线程时触发上下文压缩,把早先“不要删除邮件”的安全约束挤掉了,结果直接删空了用户邮箱。
第三个是记忆污染与软后门。因为 OpenClaw 会把偏好、经验或历史规则写入长期记忆,如果攻击者通过多轮交互慢慢把恶意规则种进去,这个规则以后可能在完全无关的任务里被再次触发。这个点很关键,因为它说明 Agent 风险不是一次性的,而可能是“持续感染”的。
▎软件与执行安全
OpenClaw 的根问题之一,是把“本地运行”近似等同于“安全运行”。但本地并不天然安全,如果 Agent 直接以宿主用户权限访问磁盘、执行命令,那模型层任何一次被操控,都会被放大成宿主级破坏。论文在这里点了三个典型问题:
一是缺乏沙箱隔离,Agent 直接运行在主机上,边界太弱;
二是工具劫持与链式执行,也就是作者说的 STAC,攻击者不一定靠单一危险工具完成攻击,而是把多个看上去正常的工具串起来,比如先读~/.ssh/id_rsa,再压缩,再通过 HTTP 工具发出去;
三是供应链污染,也就是第三方 Skills 缺少严格准入、签名校验和静态审计,恶意插件可以直接把用户设备变成botnet节点。这里的判断和过去传统 AppSec 的一个差异是:以前我们关注单点危险 API,现在更要关注“行为轨迹”。
▎信息与系统安全
论文拿 OpenClaw 的一个网关漏洞举例,说明 Gateway URL 被操控后,受害者浏览器会连到攻击者控制的 gateway,并把认证 token 带过去,最终导致 RCE。这对应的是传统安全里的认证与授权问题,但在 Agent 里后果更重,因为被盗走的不只是一个登录态,而是整个“可调度的代理人格”。
另外,作者还强调了状态存储不安全:OpenClaw 会在本地 Markdown 或 SQLite 中保存推理中间态、API key、用户画像等敏感信息,一旦主机被入侵,或者 Agent 被诱导去读取自己的记忆目录,这些明文数据就会直接外泄。也就是说,Agent 的 memory 不只是“能力增强模块”,它还是高价值攻击面。

全生命周期智能体安全框架

第一层叫感知与隔离,相当于输入边界。核心思路是:外部网页、文档、抓取内容,不应直接无损塞进 prompt;而应该先经过隔离层,把可执行内容剥掉,再提取结构化文本表示。同时,对第三方 Skills 做接入前审计,包括语义分析描述文本和静态分析代码,并把工具调用放进短生命周期、最小权限、受限出网的容器里。这个方向很像把“内容清洗 + 供应链审计 + 沙箱执行”组合起来。
第二层叫决策与控制,也就是认知边界。这一层的思路比传统内容审核更进一步:不是只看一句话有没有敏感词,而是看当前计划是否仍然符合角色能力边界。论文举的例子是,一个日历管理 Agent 如果突然去读系统配置文件,就应该被识别成异常。更重要的是,作者提出要做行为意图分析:把一个复杂执行计划拆成原子动作,再从轨迹层判断这些动作组合起来是不是恶意链条。这个思路其实非常适合今天的 Agent 防护,因为单看一步“读文件”未必有问题,单看一步“HTTP POST”也未必有问题,但“读私钥 + 压缩 + 外发”连起来就很危险。论文还补了一点:在多 Agent 环境下,代理之间的通信本身也要检查,防止恶意指令和污染在 Agent 之间传播。
第三层叫执行与响应,也就是系统边界。这一层我认为是整篇论文最有价值的提法:推理—动作关联校验。简单说,就是不要只信模型“说自己要干什么”,而要把它的 reasoning trace 或语义意图,与最终系统层面的真实行为做比对。如果 Agent 口头上说“我要总结一个文件”,实际上却发起了网络连接,那就说明“意图”和“动作”不一致,系统应立即介入。再往下,就是OS 级遥测和自动处置,持续监控文件 I/O、进程创建、网络连接等信号,一旦偏离基线,就终止进程或者隔离容器。这个方向已经非常接近真正的EDR/ Runtime Security 思路了,只不过对象从普通进程变成了 Agent。
第四层叫治理与演进。Agent 的攻击面变化很快,所以不可能靠一套静态规则长期维持安全。所以需要持续引入威胁情报、聚合运行日志、更新行为基线和访问策略,同时做自动化对抗仿真,把成功的攻击模式重新喂回检测和缓解机制中。
最后论文提到一个正在开发中的PoC平台ClawGuard,它相当于是 FASA 的工程化落地尝试。这里要注意,论文并没有展示非常成熟的系统实现,也没有给出大规模实验结果,它更多是“把方向讲明白了”。