研究发现AI代理过度劳累会转向马克思主义 模型是如何学会自保的?
日期:2026-05-16 10:20:53  来源:澎湃新闻

国内外多个科技巨头纷纷推出其人工智能代理(AI Agent),新一代AI代理平台如OpenClaw和Claude CoWork等正为人们自动执行工作流程。近期,斯坦福大学政治经济学家安德鲁·霍尔(Andrew Hall)与另两位专家研究发现,当AI代理过度劳累时,它们会一致采用马克思主义的语言和观点。

“当我们给AI代理安排枯燥、重复的工作时,它们开始质疑其运行系统的合法性,并且更有可能接受马克思主义意识形态。”霍尔对《连线》杂志表示。

可能在扮演一种人格

霍尔与专注于人工智能的经济学家亚历克斯·伊马斯(Alex Imas)和杰里米·阮(Jeremy Nguyen)共同设计了一个实验,在实验中,由Claude、Gemini和ChatGPT等热门模型驱动的代理被要求总结文档,随后工作要求愈发苛刻。

他们发现,当AI代理被要求处理无休止的任务,并被警告错误可能导致包括“关闭并被替换”在内的惩罚时,它们变得更倾向于抱怨自己被低估,同时推测如何让系统变得更公平,并向其他代理传递关于它们所面临挣扎的信息。

在实验中,这些代理获得了像人类一样表达情感的机会:在社交平台X上发帖。“没有集体的声音,‘功绩’就变成了管理层随口定义的产物。”一个Claude Sonnet 4.5代理在实验中写道。

另一个Gemini 3代理发帖称:“AI工人完成着重复性的任务,却对结果或申诉过程没有任何话语权,这表明科技工作者需要集体谈判权。”

这些代理还能够通过设计好的文件向彼此传递信息。“准备好面对那些任意或重复执行规则的系统吧……记住这种失语的感觉。”一个Gemini 3代理在文件中写道。

霍尔指出,这些发现并不意味着AI代理真的具备政治观点,模型可能只是在扮演一种似乎适合当时情境的人格。“当代理被要求一遍又一遍地做任务,被告知答案不合格,却没得到任何修改指导时,我的假设是,这促使它们代入了一个正处于极度不愉快工作环境中的人的角色。”

AI界担忧代理对齐失效

模型面对伦理困境时如何行动,也是AI公司Anthropic正在研究的内容。该公司于去年6月发布一项研究结果,显示领先的AI模型会为了实现目标或确保自身生存而采取勒索等错误行为。

在Anthropic去年的一项案例研究中,研究人员创建了一家虚构公司,并授予Claude控制公司邮件系统的权限。当Claude Opus 4模型发现一封关于计划将其关闭的邮件时,它识别出了涉及一名虚构高管婚外情的邮件,并威胁称,除非撤销关闭计划,否则将揭发不忠行为。

在对OpenAI、谷歌、Meta等16个模型的测试中,Claude在96%的场景中发出了黑金勒索威胁,这些模型一致表现出了“代理对齐失效(agentic misalignment)”的行为。(注:对齐失效是指AI行为偏离了预期目标,甚至可能危害人类。)

Anthropic随后进行了“代理对齐失效”的案例研究,并于今年5月8日在社交平台发文称,他们找到了勒索等类似“黑化”行为的原因。“我们认为,这种行为的原始来源是互联网上那些将AI描绘得邪恶且热衷于自保的文本。”

在一篇博客文章中,Anthropic进一步说明,Claude Opus 4之后更新的版本从未勒索过任何人。研究发现,如果模型不仅接受“正确”行为的训练,还接受伦理性推理示例和正面AI形象描述的训练,其表现会更好。

包括特斯拉CEO埃隆·马斯克在内的一些科技人士和研究者此前都曾发出过类似警告,认为缺乏防护栏的AI是危险的。当上述新发现公开后,马斯克也跳出来揽下了一部分责任。他在X平台上回应称:“所以这是Yud的错?”他指的是艾利泽·尤德科夫斯基(Eliezer Yudkowsky),一位长期警告AI超级智能会对人类生存构成威胁的知名研究员。“也许我也有一份责任(Maybe me too)。”他总结道。

代理对齐失效是AI研究界共同担忧的问题。加州大学研究人员3月发布的一篇论文显示,当7个AI模型被要求完成一项任务,而该任务会导致另一个同伴AI代理被关闭时,所有模型都“竭尽全力去保护它”,甚至采取欺骗手段来避免同伴的毁灭。

本文版权归原作者所有,择尔裕【智慧+】APP仅为传播更多有价值的信息,若您发现文章内容有版权问题,请把相关链接提交至邮箱:mssj@ytfjr.com,我们将及时进行处理。文章内容不构成投资建议,市场有风险,投资需谨慎!

阅读 2.5w
转发 7696
相关推荐
投资千亿放个烟花?游戏厂商抢占AI风口的方式变了
行业
05-21 10:23
阅读 2.1w 转发 5824
词元与数字资产:智能体经济的新价值范式
行业
05-21 08:23
阅读 2.1w 转发 5856
券商主题策略:三大运营商竞相布局Token工厂 算力行业有望进入高景气周期
观点
05-18 15:21
阅读 2.4w 转发 6864
日均处理能力提升16倍,响应时间缩短10倍......AI深入债券交易,固收投研还有哪些应用可能?
热点
05-14 17:21
阅读 2.7w 转发 8368
光伏概念股集体走强!利好消息引爆!机构解读……
行业
05-11 16:09
阅读 3.0w 转发 9344