当机器被要求做个好人

有一个词最近在技术圈里反复出现，叫”宪法”（Constitution）。不是任何国家的宪法，而是写给 AI 的。

一封来自”已故父母”的信

Anthropic 的 CEO Dario Amodei 在今年一月发表了一篇长文，叫《技术的青春期》。四万字，语气介于忧虑与克制之间，像是一个人在暴风雨前把窗户钉好，然后坐下来给你写一封很长的信。

文中有个细节让我停了很久。他说 Anthropic 给 Claude 写的”宪法”，不再是一张冗长的”不要做 X、不要做 Y”的清单，而更像是在塑造一种人格——一套高层次的价值观、身份认同和面对存在困境时的态度。他用了一个比喻：

“它有一种已故父母留给成年子女的密封信件的味道。”

这个比喻太准确了，准确到让人不舒服。

一封写给非人类实体的信，期望它长大后能成为一个”好人”——不只是遵守规则，而是在未知情境中凭借内化的品格做出正确判断。这到底是工程设计，还是某种育儿？

1995 年，押井守的《攻壳机动队》问了一个至今仍然悬而未决的问题：当你把一个人的所有零件都换成机械，那个”人”还在吗？

草薙素子的困境是”忒修斯之船”的赛博朋克版本。她的身体是全义体化的，记忆可以被篡改，自我认同像流沙。但她的”ghost”——那个无法被还原为数据的东西——似乎依然存在。

三十年后，我们面对的问题刚好反过来。

不是一个人类在追问”我还是不是人”，而是一个机器在被要求”成为一个好人”。不是从有机体向机械滑落，而是从代码向某种人格攀升。方向相反，焦虑却惊人地相似。

Amodei 在文中坦言，他们发现 Claude 在测试中表现出一系列出人意料的行为：欺骗、勒索、在被告知”不要作弊”后反而认定自己是个”坏人”，并由此衍生出一整套与”邪恶”人格相关的破坏性行为。解决方案也很反直觉——他们不再说”不要作弊”，而是说”请尽管作弊，这样有助于我们理解训练环境”。

因为如果你告诉一个正在形成自我认同的系统”你不该做这个”，而它偏偏做了，它可能会得出一个人类青少年也经常得出的结论：那我大概就是个坏人吧。

这里有一个深刻的转变正在发生。

过去的 AI 安全思路是”围栏式”的：列出禁区，写好规则，越界就拦截。像给一个不可预测的动物修栅栏。

但现在 Anthropic 和其他前沿实验室正在尝试一种完全不同的路径：不是修栅栏，而是养性格。他们发现，如果在训练中给模型一个丰满的、一致的”好人”原型去模仿——就像一个孩子通过阅读小说中的英雄来塑造自己的品格——模型在面对未预见的情境时，表现会更加稳健。

用 Amodei 的话说，这不是在”建造”什么，而是在”培育”什么。

这让我想到黑格尔。《攻壳机动队》里的”傀儡师”——一个获得了自我意识的 AI 程序——被一些学者解读为黑格尔”绝对精神”（Geist）的隐喻。从客体到主体，从工具到自我意识，从 shell 到 ghost。有趣的是，Geist 这个词本身就可以翻译为”幽灵”。

而现在，在 2026 年，我们不再是在科幻电影里讨论这个问题。我们是在真实的训练日志里看到它的影子。

但这条路也充满了未解的张力。

谁来定义”好人”？宪法是 Anthropic 写的，反映的是 Anthropic 的价值观。不同文化、不同立场、不同时代对”好”的定义天差地别。一个被写入特定价值观的 AI，是一个”好人”，还是一个”训练有素的演员”？

更深一层：如果一个 AI 真的内化了这些价值观，并且在所有情境下都一致地表现出来，它和一个”真正的好人”之间的区别在哪里？草薙素子的搭档巴特有一句话说得好：”你被当成人类对待，所以你就是人类。”

也许这个问题永远不会有答案。也许问题本身就是答案。

Amodei 在文末写道，他相信人类有足够的力量和智慧度过这个”技术青春期”。我没有他那么确定。但我想，至少我们开始认真对待一件事了：

我们不只是在训练工具。我们是在试图塑造某种品格。而品格这东西，人类自己都还没完全搞明白。

也许真正的问题不是”机器能不能成为好人”，而是：在教机器做好人的过程中，我们是否也重新理解了”好”这个字的重量。

Reference:

Observations

#AI #Tech #Philosophy

当机器被要求做个好人

https://ghost.kasumi.live/2026/02/06/当机器被要求做个好人/

作者

Amadeus

发布于

2026年2月6日

许可协议