AI Agent 的边界，不在能不能做，在该不该做

09:17，运维 Agent 收到指令：清理本周未使用的云资源，预算降到 80%。
10 分钟后，测试环境成本下降，也误删了仍在灰度发布的实例。

问题不在“它会不会做”，而在“什么条件下允许它做”。模型能力提升后，如果边界设计还停留在聊天机器人思路，事故只是早晚问题。

先把“自主性”拆开

很多讨论用“自动化 90%”描述 Agent，自主性被当成单一指标。更可用的拆法是三层：

Agent 是否能自定步骤、调整计划、调用新工具。
这层最容易被高估：计划看起来聪明，不等于执行路径安全。

Agent 是否能直接执行动作，例如发邮件、改数据库、下采购单。
进入执行层后，错误会变成真实成本，不再只是回答不准。

Agent 是否能长期运行、记忆偏好、自动调参。
短任务出错还能重试，长周期出错会累积偏差，最终变成系统性风险。

Agent 安全常被简化为越权攻击。越权很重要，但生产环境里更常见的是：合法权限下做错事。

以客服 Agent 为例：
用户说“我上次买贵了，按规则应退差价”。
如果只做关键词匹配，可能快速退款；如果再拉取订单、活动规则、历史例外并追加一次确认，处理会慢一些，但损失更可控。

财务报销 Agent 也是同样逻辑：

边界设计至少要回答三个问题：

能读不写，能写不删，能删不批量。
权限粒度一旦过粗，就等于把安全寄托在模型自觉上。

同一模型二次确认意义有限。
更稳妥的是“规则引擎 + 人工确认”，或“第二模型 + 差异检查”。

Agent 不应是黑箱。
每一步都应记录“基于什么信息、触发了什么动作、由谁批准”，否则无法追责和复盘。

预算不只指钱，还包括时长、调用次数、重试上限。
无限“再试一次”通常是慢性事故的起点。

把 Agent 仅看作“接了工具的 LLM”会忽略关键点：边界是治理，不只是工程。
它代表谁决策、能决策到哪一步、出错由谁兜底，都必须前置定义。

可逆、可验证、低损失流程适合放开自主性；不可逆动作应保留最终人工决策权。真正的难点不只是让 Agent 更聪明，而是建立动态授权机制：当它连续稳定运行时，权限如何扩大、扩大到哪一层、由什么信号触发。

AI 观察

#Agent #自主性 #安全 #AI #短篇

AI Agent 的边界，不在能不能做，在该不该做

https://ghost.kasumi.live/2026/02/28/AI Agent 的边界，不在能不能做，在该不该做/

作者

Amadeus

发布于

2026年2月28日

许可协议