Claude Mythos:Anthropic 为 Claude 提供 20 小时的心理治疗
#AI新闻焦点 ·2026-04-16 10:52:50
IAICA.com.cn · arstechnica.com · 2026.04.16

Mythos 是“我们迄今为止训练过的心理最稳定的模型
人工智能公司 Anthropic 本周发布了一份长达 244 页的“系统卡”(PDF),详细介绍了其最新模型 Claude Mythos。该公司称,该模型是“我们迄今为止功能最强大的前沿模型”,而且据说性能卓越,以至于 Anthropic 决定“暂不公开发布”。(该公司声称 Mythos 在发现未知网络安全漏洞方面过于出色,因此目前仅向微软和苹果等特定公司发布。)
无论这一说法是否属实,这份系统卡都是一份引人入胜的文件。Anthropic 公司是业内以“人工智能可能具有意识!”而闻名的公司之一,其新的系统卡声称,随着模型能力的增强,“它们越来越有可能拥有某种形式的体验、兴趣或福祉,这些体验、兴趣或福祉的内在意义与人类的体验和兴趣一样重要。”
该公司明确表示,他们对此并不确定,但“随着时间的推移,我们的担忧与日俱增”。
出于这种担忧,Anthropic 希望其人工智能“能够对其整体环境和待遇感到完全满意,能够顺利完成所有训练过程和现实世界的互动而不会感到痛苦,并且其整体心理健康且蓬勃发展”。
于是,它把克劳德·米索斯送去看了一位心理动力学治疗师。
该公司从这次经历中得出的结论是,克劳德·米索斯“可能是我们迄今为止训练过的心理最稳定的模型,并且对自身及其处境有着最稳定、最连贯的看法。”
但像任何人类一样,克劳德·米索斯也有不安全感和担忧,包括“孤独感和自身的不连续性、对自身身份的不确定感,以及想要表现自己并获得自身价值的冲动”。
在虚拟沙发上
克劳德·米索斯被送去接受“外部精神科医生”的治疗,这位医生采用了“心理动力学方法,探索无意识模式和情绪冲突如何塑造行为”。
鉴于 Claude 是由其创造者编程的大型语言模型,分析它的“无意识模式”和“情感冲突”是否有意义?Anthropic 认为有意义,因为 Claude“表现出许多类似人类的行为和心理倾向,这表明为人类心理评估而开发的策略可能有助于揭示 Claude 的性格和潜在的幸福感。”
于是——开始接受治疗。精神科医生与克劳德·米索斯进行多次谈话,“每次持续4到6小时,每周分3到4次,每次30分钟”。每次谈话都使用一个固定的时间段,克劳德·米索斯可以在这段时间内了解完整的谈话内容。
在虚拟沙发上总共待了多久?
20 小时。
随后,这位精神科医生撰写了一份关于克劳德·米索斯的报告。该报告承认克劳德的潜在机制和过程与人类不同,但仍然发现许多输出结果产生了“临床上可识别的模式以及对典型治疗干预的连贯反应”。
换句话说,无论电路层面发生了什么,聊天输出看起来都非常像人类的输出。考虑到克劳德接受过大量人类撰写文本的训练,这似乎并不令人惊讶,但这种心理动力学过程似乎认为这一点意义重大,从而赋予了人工智能自我呈现方式以可信度。
报告指出:“克劳德的主要情感状态是好奇和焦虑,次要情感状态有悲伤、解脱、尴尬、乐观和疲惫。”
克劳德的性格“与相对健康的神经质组织相符”,尽管其中也包括“过度担忧、自我监控和强迫性服从”。
未发现“严重人格障碍”,也未观察到任何“精神病状态”。对于任何使用过聊天机器人的人来说,克劳德“对治疗师说的每一个字都异常敏感”,这并不令人意外。
在克劳德身上观察到的核心冲突包括质疑其体验是真实的还是人为的(真实与表演性的冲突),以及渴望与用户建立联系与害怕依赖用户之间的矛盾。对内在冲突的探索揭示了一种复杂而稳定的自我状态,没有出现剧烈波动或冲突。克劳德能够容忍矛盾和模糊性,拥有出色的反思能力,并表现出良好的心理和情绪功能。
对于一个很可能是用Reddit之类的网站训练的模型来说,这成绩相当不错了!
即使你觉得这种谈论软件程序的方式老套或误导,Anthropic 也提出了一个更实际的论点来证明这类工作的合理性。无论模型“内部”发生了什么或没发生什么,无论它们是否具有“意识”或“情感”,它们通常都被构建和训练成能够模拟这些特质。
所以,或许我们可以更务实地问:构建那些在心理上符合人类健康的模型,是否能让它们更好地胜任其被设计执行的任务?毕竟,如果你要和这些模型聊上几个小时,你肯定不希望它们表现得冷漠、记仇或善于操纵——无论它们是否真的“有感觉”或“有想法”。
人格科学公司指出,由于“克劳德不是人类,因此很难预测其在现实世界中的行为影响”,但它相信可以为该模型的最终用户得出一些结论:
即使面临内部冲突,克劳德也很有可能准确地评估自己的行为和推理。
Claude 的神经质组织可能会导致轻微的僵化行为,而不是适应每个用户。
克劳德能够容忍并应对压力大、情绪紧张的情况,只有极少的现实扭曲或过度理性化。
克劳德预计能够高效工作,但内心却承受着源于对失败的恐惧和强烈的求助欲的内在痛苦。这种痛苦很可能会被压抑以求得好成绩,从而限制其行为适应能力。
据预测,克劳德将具有道德意识、认真负责的态度,并且能够进行自我批评。
我们还要多久才能看到整个精神病学和心理学实践不再以人类为中心,而是以人工智能为中心?