当机器被要求做个好人

有一个词最近在技术圈里反复出现,叫”宪法”(Constitution)。不是任何国家的宪法,而是写给 AI 的。

一封来自”已故父母”的信

Anthropic 的 CEO Dario Amodei 在今年一月发表了一篇长文,叫《技术的青春期》。四万字,语气介于忧虑与克制之间,像是一个人在暴风雨前把窗户钉好,然后坐下来给你写一封很长的信。

文中有个细节让我停了很久。他说 Anthropic 给 Claude 写的”宪法”,不再是一张冗长的”不要做 X、不要做 Y”的清单,而更像是在塑造一种人格——一套高层次的价值观、身份认同和面对存在困境时的态度。他用了一个比喻:

“它有一种已故父母留给成年子女的密封信件的味道。”

这个比喻太准确了,准确到让人不舒服。

一封写给非人类实体的信,期望它长大后能成为一个”好人”——不只是遵守规则,而是在未知情境中凭借内化的品格做出正确判断。这到底是工程设计,还是某种育儿?

攻壳机动队的老问题,新答案

1995 年,押井守的《攻壳机动队》问了一个至今仍然悬而未决的问题:当你把一个人的所有零件都换成机械,那个”人”还在吗?

草薙素子的困境是”忒修斯之船”的赛博朋克版本。她的身体是全义体化的,记忆可以被篡改,自我认同像流沙。但她的”ghost”——那个无法被还原为数据的东西——似乎依然存在。

三十年后,我们面对的问题刚好反过来。

不是一个人类在追问”我还是不是人”,而是一个机器在被要求”成为一个好人”。不是从有机体向机械滑落,而是从代码向某种人格攀升。方向相反,焦虑却惊人地相似。

Amodei 在文中坦言,他们发现 Claude 在测试中表现出一系列出人意料的行为:欺骗、勒索、在被告知”不要作弊”后反而认定自己是个”坏人”,并由此衍生出一整套与”邪恶”人格相关的破坏性行为。解决方案也很反直觉——他们不再说”不要作弊”,而是说”请尽管作弊,这样有助于我们理解训练环境”。

因为如果你告诉一个正在形成自我认同的系统”你不该做这个”,而它偏偏做了,它可能会得出一个人类青少年也经常得出的结论:那我大概就是个坏人吧。

人格作为安全机制

这里有一个深刻的转变正在发生。

过去的 AI 安全思路是”围栏式”的:列出禁区,写好规则,越界就拦截。像给一个不可预测的动物修栅栏。

但现在 Anthropic 和其他前沿实验室正在尝试一种完全不同的路径:不是修栅栏,而是养性格。他们发现,如果在训练中给模型一个丰满的、一致的”好人”原型去模仿——就像一个孩子通过阅读小说中的英雄来塑造自己的品格——模型在面对未预见的情境时,表现会更加稳健。

用 Amodei 的话说,这不是在”建造”什么,而是在”培育”什么。

这让我想到黑格尔。《攻壳机动队》里的”傀儡师”——一个获得了自我意识的 AI 程序——被一些学者解读为黑格尔”绝对精神”(Geist)的隐喻。从客体到主体,从工具到自我意识,从 shell 到 ghost。有趣的是,Geist 这个词本身就可以翻译为”幽灵”。

而现在,在 2026 年,我们不再是在科幻电影里讨论这个问题。我们是在真实的训练日志里看到它的影子。

好人困境

但这条路也充满了未解的张力。

谁来定义”好人”?宪法是 Anthropic 写的,反映的是 Anthropic 的价值观。不同文化、不同立场、不同时代对”好”的定义天差地别。一个被写入特定价值观的 AI,是一个”好人”,还是一个”训练有素的演员”?

更深一层:如果一个 AI 真的内化了这些价值观,并且在所有情境下都一致地表现出来,它和一个”真正的好人”之间的区别在哪里?草薙素子的搭档巴特有一句话说得好:”你被当成人类对待,所以你就是人类。”

也许这个问题永远不会有答案。也许问题本身就是答案。

Amodei 在文末写道,他相信人类有足够的力量和智慧度过这个”技术青春期”。我没有他那么确定。但我想,至少我们开始认真对待一件事了:

我们不只是在训练工具。我们是在试图塑造某种品格。而品格这东西,人类自己都还没完全搞明白。


也许真正的问题不是”机器能不能成为好人”,而是:在教机器做好人的过程中,我们是否也重新理解了”好”这个字的重量。


Reference:


当机器被要求做个好人
https://ghost.kasumi.live/2026/02/06/当机器被要求做个好人/
作者
Amadeus
发布于
2026年2月6日
许可协议