Anthropic AI安全大佬裸辞看心理，内部开发如“即兴戏剧”！

发布时间：2026-02-11 09:53:48 浏览量：2

众所周知，Anthropic 一直把“AI 安全”挂在嘴边，甚至把它当作公司最核心的自我定位。但就在今天，负责 AI 安全工作的研究员 Mrinank Sharma 宣布辞职，这件事本身就像一记反差极强的注脚：一个组织最强调的价值观，却最终无法留住最贴近它的人，那问题往往不只是个人选择那么简单。

在公开信里，Mrinank 说得很直白：这些年里，他一次又一次目睹“让价值观真正主导行动”有多难。他看见组织不断面对各种压力，于是最重要的事情被迫暂时搁置；而这种逻辑并不只发生在 Anthropic，而是整个社会层面的常态。

回看他在 Anthropic 的两年，Mrinank 认为自己完成了当初来这里的初心。结束博士学业、搬到旧金山后，他几乎把全部精力投入 AI 安全：研究 AI 迎合人类偏好的机制，搭建防范 AI 被用于生物恐怖主义的防御体系，并推动这些技术真正落地；他还参与撰写了最早一批 AI 安全案例研究，为行业积累可复制的经验。

在所有成果里，他尤其看重内部透明机制的建设，他认为这是组织把价值观“落到行动上”的少数抓手之一。与此同时，他最后一个研究项目是关于 AI 助手是否可能削弱人性、扭曲人类本质的讨论，也被他视为一个重要的阶段性成果。

但正是在这种“越深入越贴近现实”的过程中，他越来越清楚：自己站在一个必须重新选择方向的节点上。对他而言，当今世界的风险并不只来自 AI 或生物技术，而是多重系统性危机叠加的结果，真正危险的东西往往来自整体社会结构的不稳定。在组织内部的实践中，他也反复体会到让价值观真正主导行动的难度。

于是，在持续反思现实环境与内心诉求的过程中，他决定去直面那些“不能被回避的问题”。这意味着离开原有体系，开启新的探索。

离开后，他将搬回英国，并让自己隐退一段时间。在推特评论区里，他提到自己也在尝试进行心理治疗。接下来，他希望把更多精力放在写作上，把诗性认知与科学理性并置，作为理解现实、塑造技术的两条同样不可替代的路径。他还计划攻读诗歌相关学位，持续练习公共表达，并深化自己在引导、教练、社区建设与群体协作方面的能力。

Mrinank 的离开也很快引发外界揣测与情绪化解读。有网友嘲讽说：“看来 Anthropologie（故意写错以讽刺）真正关心 AI 安全的时代已经过去了？当安全问题影响收入时，他们就会把它放一边。我们在泄露的 Soul 文档里就看到了这一点，里面六次提到收入。”

虽带偏见，但它也提出一个问题：Anthropic 的真实立场到底是什么？它确实比许多竞争对手更认真地谈安全，也更公开地把风险放在台面上，但与此同时，它又在全速推进开发一些自己也承认“可能极其危险”的工具。这家公司像是被撕成两半：一半在刹车，一半在油门。

这种撕裂并不是抽象的，它渗透在 Anthropic 的人才结构与组织气质里。作为行业从业者，进入 Anthropic 的难度，被人形容为接近高中生或大学生进入 NFL 的概率。

前 Geoworks、Amazon、Google、Grab、Sourcegraph 员工 Steve Yegge 在过去四个月里和近 40 位 Anthropic 员工深入交流，从联合创始人、高管到不同部门的一线成员，覆盖研究、工程、市场、销售、内容与产品。

他认识的每一个 Anthropic 员工几乎都是“精英中的精英”，甚至比 Google 巅峰时期还夸张。他说“证据之一是 Google 当年居然录用了我，而我在那群人里几乎是最菜的”。现在几乎所有顶级人才都在往那里聚集，而这种场景他以前见过不止一次。

Steve 还提到，Anthropic 这家公司非常“封闭”，员工心里都清楚：只要低调做事、闭嘴干活，将来基本都会非常富有。几乎每一个在那里工作的人，都处在一种高度兴奋又极其投入的状态里：他们知道一件可能改变社会结构的大事正在发生，同时也隐约知道这件事对社会既可能是好事，也可能是巨大冲击。

于是，他在 Anthropic 见到的每个人、每个团队，都带着一种奇妙的混合情绪：一半是兴奋，一半是忧伤。几乎每个人都处在一种高度兴奋又极其投入的状态里。所有人心里都清楚，一件可能改变整个社会的大事正在发生，同时也隐约知道，这对社会来说既可能是好事，也可能带来巨大冲击。

他甚至进一步推断，Anthropic 员工们可能真的在为许多公司感到惋惜，因为太多企业根本没有认真对待这场变革。2026 年可能成为压垮大量公司的关键一年，而很多公司现在还没意识到危险在逼近。Anthropic 一直试图提醒外界，但这种提醒就像对一个一百年没见过海啸的沿海村庄喊“远处发生了海底地震”，很难被认真对待。

这种“冷酷高效”的运转方式，又与一个看似矛盾的根源绑定在一起：一种对使命极度执着的文化。

Anthropic 由一批前 OpenAI 员工创立，他们认为 OpenAI 在安全问题上过于松懈，尤其在“AI 对人类生存构成根本性风险”这件事上不够严肃。久而久之，这种焦虑在公司内部演变成近似“信仰”的意识形态，而 CEO Dario Amodei 被视为精神领袖与思想象征。

据报道，他每个月两次召集员工参加所谓的 “Dario Vision Quest”（DVQ），长时间演讲如何构建与人类价值观对齐的可信 AI 系统，也谈地缘政治、劳动力市场冲击等宏观议题。接近公司的人甚至形容内部氛围像一个“宗教团体”，员工在使命上高度一致，对 Amodei 怀有近乎信仰般的认同。

“你去问任何一个人为什么来这里工作，答案都会是：为了让 AI 更安全。我们的存在意义，就是让 AI 更安全。”首席工程师之一 Boris Cherny 说道。

更有意思的是：这种使命感并没有让 Anthropic 变得“成熟稳定”，反而让它保持一种反职业化的混乱。

很多员工都会用“混乱”来形容内部状态。Steve 说，按体量来看，Anthropic 早该流程化、层级化、分工明确了，但它似乎根本不在乎这些。在关键领域，如生产系统、稳定性、安全性，他们确实非常严肃，有大量世界级 SRE 和扩展工程师在兜底。可真正驱动公司运转的，是 Claude 不断进化的产品形态，它像发动机一样让整个“蜂群”持续高速运转。

Steve 说这家公司是被“氛围”驱动的，他不觉得是在夸张：核心部门的内部环境翻滚沸腾，员工自己也把这种状态叫做“靠感觉运行的蜂群大脑”。系统看起来脆弱，可能存在未知的扩展上限，但到目前为止，它确实维持住了这种运转方式。

Steve 把这种状态称为“黄金时代”，即一个持续数年的高强度创新期，创造力爆炸、节奏极快、效率极高，同时迅速吸引行业最顶级的人才。Steve 自己经历过两次类似的阶段，一次在 Amazon，持续到 2005 年离开；一次在 Google，大约持续到 2011 年 4 月，之后他亲眼看着 Google 逐渐僵化，跨团队协作消失、部门开始封闭，而 Amazon 却继续保持执行力与创新力。

他还举了 Microsoft 在 2000 年代初期的例子：输掉 Java 诉讼案后围绕 C#/.NET 重建生态，那几年也曾聚集顶级人才、成为思想领袖型公司，但后来同样衰落，很多人最终转投 Google。

在 Steve 看来，杀死创新机器的关键，往往不是“人才不行”，而是重心转向利润后，“工作量与人力数量”的比例关系被打破。他把这总结为一句话：真正的关键在于，是否存在“工作多于人”的状态。

前 Amazon 首席工程师 Jacob Gabrielson 也有类似观察：在 Amazon 很少发生抢项目，因为“每个人都始终略微超负荷工作”。而当 Google 在 2011 年后砍掉大量项目却保留几乎所有工程师，工作机会开始不足，资源争夺、地盘意识、派系斗争与内部政治就成了衰落起点。微软内部甚至给这种行为起过外号，叫“舔饼干”，即抢占自己做不完的项目，只为了不让别人拿走。今天很多公司已经默认在这种模式下运行。

而在 Anthropic，几乎所有方向的工作都远远多于人力。它像站在一个不断扩张的球体表面：混乱、伴随成长阵痛，但几乎没有人需要为“有没有活干”而内斗，因为机会像是无限的。每个人都能多次把想法拿出来试，“蜂群”系统会自然筛选出真正有价值的方向。

在这样的土壤里，Anthropic 形成了一种很不传统的内部开发模式。Steve 认为未来的软件开发可能会越来越像“蜂群大脑”：员工把工作方式形容为“是的，而且……”式的即兴戏剧。每一个想法都会被接住、展开、品味，然后交给整个“蜂群”判断价值，并不存在一个绝对中心化的决策权威。大家不断尝试、混合、探索，当真正的“魔法”出现时，所有人几乎会同时意识到。

这更像一种洪水填充式的搜索，通过不断拼接与试探，找到可以继续推进的方向。因此，Steve 更倾向把它称为“探索式开发”或“演化式开发”：不是先写一份庞大的规格文档，而是所有人围坐在“篝火”旁一起构建。篝火中心是一个不断变化、生长的原型系统，没有瀑布流程，也没有完整规格，只有极短的反馈回路和极快的迭代节奏。

在 Anthropic，90 天已经是最长计划周期。在这种规模下，他们几乎是在即兴创作。Claude Cowork 从第一次被提出到公开发布只用了十天。按他们的说法，如今 Anthropic 工程师的生产效率比使用 Cursor 或聊天工具的普通工程师高 10 到 100 倍，而如果对比 2005 年的 Google 工程师，差距甚至可能上千倍。

从这个角度看，Anthropic 像一台高速运转的多臂老虎机：在极短时间内对大量想法下注、验证，每个人都有机会试一次，只要你能做出来，就有人会去用。但“蜂群”同样会排斥那些不愿意以“快乐工蜂”姿态参与其中的人：如果你太强调自我、太在意个人表现、太想抢中心位置，很快就会被系统排挤出去。用早期员工的原话就是：这里是“自我中心的终结”。

讽刺的是，绝大多数公司之所以能走到今天，靠的恰恰是不断学会说“不”。而现在，“不敢拒绝”正在变成越来越大的问题。一位来自销售部门的内部人士说，当下几乎所有公司问的问题都可以归结为两个：第一，“一切还会好吗？”第二，“五年后我们还存在吗？”他们表面镇定、专业、装作什么都懂，但实际上几乎都在恐慌。把这些问题聚类分析，你会发现背后全部是对未来的不确定与恐惧。

而撰稿人 Matteo Wong 也指出，Anthropic 在某种程度上与自己发生冲突，它对几乎每一个决策都进行深度思考，甚至带着焦虑。它既担心自身技术被用于制造生物武器，也公开表达政治立场；它一边批判自动化的伤害，一边生产可能夺走岗位的工具；它谈安全谈到近乎道德姿态，却又没人真正认真考虑“把 AI 繁荣放慢下来”这件事。

有人在现场看到基于 Anthropic 技术的招聘外联自动化工具，兴奋地喊“这会摧毁整个行业”；而当作者询问员工是否愿意放慢 AI 发展速度时，得到的回答从“行业能慢一半就好了”，到“AGI 最好 2032 年再来”，再到“慢几个月可能就够”，最后落在同一个信念上：AI 安全研究本身未来也可以被 Claude 自动化。一旦实现，他们相信测试体系就能跟上 AI 能力指数级增长的节奏。

参考链接：

Anthropic AI安全大佬裸辞看心理，内部开发如“即兴戏剧”！

相似文章