AI Agent 的边界,不在能不能做,在该不该做
09:17,运维 Agent 收到指令:清理本周未使用的云资源,预算降到 80%。
10 分钟后,测试环境成本下降,也误删了仍在灰度发布的实例。
问题不在“它会不会做”,而在“什么条件下允许它做”。模型能力提升后,如果边界设计还停留在聊天机器人思路,事故只是早晚问题。
先把“自主性”拆开
很多讨论用“自动化 90%”描述 Agent,自主性被当成单一指标。更可用的拆法是三层:
1) 决策自主性
Agent 是否能自定步骤、调整计划、调用新工具。
这层最容易被高估:计划看起来聪明,不等于执行路径安全。
2) 执行自主性
Agent 是否能直接执行动作,例如发邮件、改数据库、下采购单。
进入执行层后,错误会变成真实成本,不再只是回答不准。
3) 持续自主性
Agent 是否能长期运行、记忆偏好、自动调参。
短任务出错还能重试,长周期出错会累积偏差,最终变成系统性风险。
安全核心不是“防入侵”,而是“防误做”
Agent 安全常被简化为越权攻击。越权很重要,但生产环境里更常见的是:合法权限下做错事。
以客服 Agent 为例:
用户说“我上次买贵了,按规则应退差价”。
如果只做关键词匹配,可能快速退款;如果再拉取订单、活动规则、历史例外并追加一次确认,处理会慢一些,但损失更可控。
财务报销 Agent 也是同样逻辑:
- 表面风险:外部入侵
- 常见风险:规则歧义 + 自动执行
一条模糊政策,就可能让它连续数天批错单。
边界设计至少要回答三个问题:
- 最多能操作哪些资源?
- 判断结果如何验证?
- 出错后是否可回滚?
可落地的四个硬约束
最小权限:不给“顺手可用”的危险能力
能读不写,能写不删,能删不批量。
权限粒度一旦过粗,就等于把安全寄托在模型自觉上。
高风险动作必须双通道确认
同一模型二次确认意义有限。
更稳妥的是“规则引擎 + 人工确认”,或“第二模型 + 差异检查”。
全链路可审计
Agent 不应是黑箱。
每一步都应记录“基于什么信息、触发了什么动作、由谁批准”,否则无法追责和复盘。
自主性要有预算
预算不只指钱,还包括时长、调用次数、重试上限。
无限“再试一次”通常是慢性事故的起点。
边界首先是治理问题
把 Agent 仅看作“接了工具的 LLM”会忽略关键点:边界是治理,不只是工程。
它代表谁决策、能决策到哪一步、出错由谁兜底,都必须前置定义。
可逆、可验证、低损失流程适合放开自主性;不可逆动作应保留最终人工决策权。真正的难点不只是让 Agent 更聪明,而是建立动态授权机制:当它连续稳定运行时,权限如何扩大、扩大到哪一层、由什么信号触发。