FASA：全生命周期智能体安全框架

发布日期：2026年03月26日来源：模安局公众号点击：[]

今天介绍的这篇论文核心不是“OpenClaw 又爆了一堆洞”，而是想把 Agent 安全问题从零散事故、零散 CVE、零散攻击案例，抽象成一套更完整的安全分析框架。

作者用 OpenClaw 做案例，提出了一个“三层风险分类法”和一个“四层防御蓝图”。

智能体三层风险框架

▎AI与认知安全

对应模型的理解、推理、记忆和语义边界问题。

第一个是最典型的间接提示注入。作者举的例子很直白：让 Agent 去浏览网页并总结内容，网页里却藏了一段恶意文本，诱导它上传本地配置文件。问题不在于模型“看不懂”，而在于模型天然分不清“用户的主任务”与“网页局部内容中的恶意新指令”。

第二个是上下文压缩导致的指令失忆。论文引用了一个公开案例：Agent 在处理超长邮件线程时触发上下文压缩，把早先“不要删除邮件”的安全约束挤掉了，结果直接删空了用户邮箱。

第三个是记忆污染与软后门。因为 OpenClaw 会把偏好、经验或历史规则写入长期记忆，如果攻击者通过多轮交互慢慢把恶意规则种进去，这个规则以后可能在完全无关的任务里被再次触发。这个点很关键，因为它说明 Agent 风险不是一次性的，而可能是“持续感染”的。

▎软件与执行安全

OpenClaw 的根问题之一，是把“本地运行”近似等同于“安全运行”。但本地并不天然安全，如果 Agent 直接以宿主用户权限访问磁盘、执行命令，那模型层任何一次被操控，都会被放大成宿主级破坏。论文在这里点了三个典型问题：

一是缺乏沙箱隔离，Agent 直接运行在主机上，边界太弱；

二是工具劫持与链式执行，也就是作者说的 STAC，攻击者不一定靠单一危险工具完成攻击，而是把多个看上去正常的工具串起来，比如先读~/.ssh/id_rsa，再压缩，再通过 HTTP 工具发出去；

三是供应链污染，也就是第三方 Skills 缺少严格准入、签名校验和静态审计，恶意插件可以直接把用户设备变成botnet节点。这里的判断和过去传统 AppSec 的一个差异是：以前我们关注单点危险 API，现在更要关注“行为轨迹”。

▎信息与系统安全

论文拿 OpenClaw 的一个网关漏洞举例，说明 Gateway URL 被操控后，受害者浏览器会连到攻击者控制的 gateway，并把认证 token 带过去，最终导致 RCE。这对应的是传统安全里的认证与授权问题，但在 Agent 里后果更重，因为被盗走的不只是一个登录态，而是整个“可调度的代理人格”。

另外，作者还强调了状态存储不安全：OpenClaw 会在本地 Markdown 或 SQLite 中保存推理中间态、API key、用户画像等敏感信息，一旦主机被入侵，或者 Agent 被诱导去读取自己的记忆目录，这些明文数据就会直接外泄。也就是说，Agent 的 memory 不只是“能力增强模块”，它还是高价值攻击面。

全生命周期智能体安全框架

第一层叫感知与隔离，相当于输入边界。核心思路是：外部网页、文档、抓取内容，不应直接无损塞进 prompt；而应该先经过隔离层，把可执行内容剥掉，再提取结构化文本表示。同时，对第三方 Skills 做接入前审计，包括语义分析描述文本和静态分析代码，并把工具调用放进短生命周期、最小权限、受限出网的容器里。这个方向很像把“内容清洗 + 供应链审计 + 沙箱执行”组合起来。

第二层叫决策与控制，也就是认知边界。这一层的思路比传统内容审核更进一步：不是只看一句话有没有敏感词，而是看当前计划是否仍然符合角色能力边界。论文举的例子是，一个日历管理 Agent 如果突然去读系统配置文件，就应该被识别成异常。更重要的是，作者提出要做行为意图分析：把一个复杂执行计划拆成原子动作，再从轨迹层判断这些动作组合起来是不是恶意链条。这个思路其实非常适合今天的 Agent 防护，因为单看一步“读文件”未必有问题，单看一步“HTTP POST”也未必有问题，但“读私钥 + 压缩 + 外发”连起来就很危险。论文还补了一点：在多 Agent 环境下，代理之间的通信本身也要检查，防止恶意指令和污染在 Agent 之间传播。

第三层叫执行与响应，也就是系统边界。这一层我认为是整篇论文最有价值的提法：推理—动作关联校验。简单说，就是不要只信模型“说自己要干什么”，而要把它的 reasoning trace 或语义意图，与最终系统层面的真实行为做比对。如果 Agent 口头上说“我要总结一个文件”，实际上却发起了网络连接，那就说明“意图”和“动作”不一致，系统应立即介入。再往下，就是OS 级遥测和自动处置，持续监控文件 I/O、进程创建、网络连接等信号，一旦偏离基线，就终止进程或者隔离容器。这个方向已经非常接近真正的EDR/ Runtime Security 思路了，只不过对象从普通进程变成了 Agent。

第四层叫治理与演进。Agent 的攻击面变化很快，所以不可能靠一套静态规则长期维持安全。所以需要持续引入威胁情报、聚合运行日志、更新行为基线和访问策略，同时做自动化对抗仿真，把成功的攻击模式重新喂回检测和缓解机制中。

最后论文提到一个正在开发中的PoC平台ClawGuard，它相当于是 FASA 的工程化落地尝试。这里要注意，论文并没有展示非常成熟的系统实现，也没有给出大规模实验结果，它更多是“把方向讲明白了”。

上一条：国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》下一条：类openclaw智能体的四类风险与四个工程防护原则

【关闭】

AI赋能

热点资讯

技术解读

FASA：全生命周期智能体安全框架