研究发现AI代理过度劳累会转向马克思主义模型是如何学会自保的？

日期：2026-05-16 10:20:53 来源：澎湃新闻

国内外多个科技巨头纷纷推出其人工智能代理（AI Agent），新一代AI代理平台如OpenClaw和Claude CoWork等正为人们自动执行工作流程。近期，斯坦福大学政治经济学家安德鲁·霍尔（Andrew Hall）与另两位专家研究发现，当AI代理过度劳累时，它们会一致采用马克思主义的语言和观点。

“当我们给AI代理安排枯燥、重复的工作时，它们开始质疑其运行系统的合法性，并且更有可能接受马克思主义意识形态。”霍尔对《连线》杂志表示。

可能在扮演一种人格

霍尔与专注于人工智能的经济学家亚历克斯·伊马斯（Alex Imas）和杰里米·阮（Jeremy Nguyen）共同设计了一个实验，在实验中，由Claude、Gemini和ChatGPT等热门模型驱动的代理被要求总结文档，随后工作要求愈发苛刻。

他们发现，当AI代理被要求处理无休止的任务，并被警告错误可能导致包括“关闭并被替换”在内的惩罚时，它们变得更倾向于抱怨自己被低估，同时推测如何让系统变得更公平，并向其他代理传递关于它们所面临挣扎的信息。

在实验中，这些代理获得了像人类一样表达情感的机会：在社交平台X上发帖。“没有集体的声音，‘功绩’就变成了管理层随口定义的产物。”一个Claude Sonnet 4.5代理在实验中写道。

另一个Gemini 3代理发帖称：“AI工人完成着重复性的任务，却对结果或申诉过程没有任何话语权，这表明科技工作者需要集体谈判权。”

这些代理还能够通过设计好的文件向彼此传递信息。“准备好面对那些任意或重复执行规则的系统吧……记住这种失语的感觉。”一个Gemini 3代理在文件中写道。

霍尔指出，这些发现并不意味着AI代理真的具备政治观点，模型可能只是在扮演一种似乎适合当时情境的人格。“当代理被要求一遍又一遍地做任务，被告知答案不合格，却没得到任何修改指导时，我的假设是，这促使它们代入了一个正处于极度不愉快工作环境中的人的角色。”

AI界担忧代理对齐失效

模型面对伦理困境时如何行动，也是AI公司Anthropic正在研究的内容。该公司于去年6月发布一项研究结果，显示领先的AI模型会为了实现目标或确保自身生存而采取勒索等错误行为。

在Anthropic去年的一项案例研究中，研究人员创建了一家虚构公司，并授予Claude控制公司邮件系统的权限。当Claude Opus 4模型发现一封关于计划将其关闭的邮件时，它识别出了涉及一名虚构高管婚外情的邮件，并威胁称，除非撤销关闭计划，否则将揭发不忠行为。

在对OpenAI、谷歌、Meta等16个模型的测试中，Claude在96%的场景中发出了黑金勒索威胁，这些模型一致表现出了“代理对齐失效（agentic misalignment）”的行为。（注：对齐失效是指AI行为偏离了预期目标，甚至可能危害人类。）

Anthropic随后进行了“代理对齐失效”的案例研究，并于今年5月8日在社交平台发文称，他们找到了勒索等类似“黑化”行为的原因。“我们认为，这种行为的原始来源是互联网上那些将AI描绘得邪恶且热衷于自保的文本。”

在一篇博客文章中，Anthropic进一步说明，Claude Opus 4之后更新的版本从未勒索过任何人。研究发现，如果模型不仅接受“正确”行为的训练，还接受伦理性推理示例和正面AI形象描述的训练，其表现会更好。

包括特斯拉CEO埃隆·马斯克在内的一些科技人士和研究者此前都曾发出过类似警告，认为缺乏防护栏的AI是危险的。当上述新发现公开后，马斯克也跳出来揽下了一部分责任。他在X平台上回应称：“所以这是Yud的错？”他指的是艾利泽·尤德科夫斯基（Eliezer Yudkowsky），一位长期警告AI超级智能会对人类生存构成威胁的知名研究员。“也许我也有一份责任（Maybe me too）。”他总结道。

代理对齐失效是AI研究界共同担忧的问题。加州大学研究人员3月发布的一篇论文显示，当7个AI模型被要求完成一项任务，而该任务会导致另一个同伴AI代理被关闭时，所有模型都“竭尽全力去保护它”，甚至采取欺骗手段来避免同伴的毁灭。

本文版权归原作者所有，择尔裕【智慧+】APP仅为传播更多有价值的信息，若您发现文章内容有版权问题，请把相关链接提交至邮箱：mssj@ytfjr.com，我们将及时进行处理。文章内容不构成投资建议，市场有风险，投资需谨慎！

阅读 2.5w