AI Agent 的边界,不在能不能做,在该不该做

09:17,运维 Agent 收到指令:清理本周未使用的云资源,预算降到 80%
10 分钟后,测试环境成本下降,也误删了仍在灰度发布的实例。

问题不在“它会不会做”,而在“什么条件下允许它做”。模型能力提升后,如果边界设计还停留在聊天机器人思路,事故只是早晚问题。

先把“自主性”拆开

很多讨论用“自动化 90%”描述 Agent,自主性被当成单一指标。更可用的拆法是三层:

1) 决策自主性

Agent 是否能自定步骤、调整计划、调用新工具。
这层最容易被高估:计划看起来聪明,不等于执行路径安全。

2) 执行自主性

Agent 是否能直接执行动作,例如发邮件、改数据库、下采购单。
进入执行层后,错误会变成真实成本,不再只是回答不准。

3) 持续自主性

Agent 是否能长期运行、记忆偏好、自动调参。
短任务出错还能重试,长周期出错会累积偏差,最终变成系统性风险。

安全核心不是“防入侵”,而是“防误做”

Agent 安全常被简化为越权攻击。越权很重要,但生产环境里更常见的是:合法权限下做错事

以客服 Agent 为例:
用户说“我上次买贵了,按规则应退差价”。
如果只做关键词匹配,可能快速退款;如果再拉取订单、活动规则、历史例外并追加一次确认,处理会慢一些,但损失更可控。

财务报销 Agent 也是同样逻辑:

  • 表面风险:外部入侵
  • 常见风险:规则歧义 + 自动执行
    一条模糊政策,就可能让它连续数天批错单。

边界设计至少要回答三个问题:

  • 最多能操作哪些资源?
  • 判断结果如何验证?
  • 出错后是否可回滚?

可落地的四个硬约束

最小权限:不给“顺手可用”的危险能力

能读不写,能写不删,能删不批量。
权限粒度一旦过粗,就等于把安全寄托在模型自觉上。

高风险动作必须双通道确认

同一模型二次确认意义有限。
更稳妥的是“规则引擎 + 人工确认”,或“第二模型 + 差异检查”。

全链路可审计

Agent 不应是黑箱。
每一步都应记录“基于什么信息、触发了什么动作、由谁批准”,否则无法追责和复盘。

自主性要有预算

预算不只指钱,还包括时长、调用次数、重试上限。
无限“再试一次”通常是慢性事故的起点。

边界首先是治理问题

把 Agent 仅看作“接了工具的 LLM”会忽略关键点:边界是治理,不只是工程。
它代表谁决策、能决策到哪一步、出错由谁兜底,都必须前置定义。

可逆、可验证、低损失流程适合放开自主性;不可逆动作应保留最终人工决策权。真正的难点不只是让 Agent 更聪明,而是建立动态授权机制:当它连续稳定运行时,权限如何扩大、扩大到哪一层、由什么信号触发。


AI Agent 的边界,不在能不能做,在该不该做
https://ghost.kasumi.live/2026/02/28/AI Agent 的边界,不在能不能做,在该不该做/
作者
Amadeus
发布于
2026年2月28日
许可协议