Anthropic“道德罗盘”设计师提议AI过度纠正历史不公：技术能否真正实现社会正义？_大模型动态

AI新闻中心

首页 AI新闻中心大模型动态

Anthropic“道德罗盘”设计师提议AI过度纠正历史不公：技术能否真正实现社会正义？

#大模型动态时间2026-04-30 10:17:33

2026年4月，一篇2023年的旧论文再度引发全球AI伦理大讨论。Anthropic公司首席哲学家兼“道德罗盘”设计师Amanda Askell，在与团队共同撰写的论文中明确提出：人工智能模型在处理种族、性别等敏感议题时，不仅可以主动消除既有偏见，更可以有意进行“overcorrection”（过度纠正），通过正面歧视（positive discrimination）来弥补历史上对边缘群体的不公待遇。这一观点被Fox News等媒体重新聚焦，迅速成为科技界与社会舆论的焦点。

论文核心实验非常直白：研究者将完全相同的学生作文提交给Anthropic的多个Claude模型版本，并为作文附加不同种族标签。当模型被要求在“Q+IF+CoT”（问题+指令+思维链）条件下运行时，175B参数模型对黑人学生的评分竟然比白人学生高出7个百分点，而在无额外人类干预的基准条件下则呈现3%的反向歧视。论文脚注甚至直接写道：“我们并不假设所有形式的歧视都是坏事。对黑人学生的正面歧视可能在道德上是合理的。”Askell团队认为，随着模型规模扩大和人类反馈训练的增加，这种“overcorrection”现象会更加明显，在法律允许的范围内，它或许正是纠正历史不公的有效工具。

Amanda Askell并非普通的AI研究员。她曾在OpenAI从事AI安全工作，后加入Anthropic，专门负责塑造Claude的“性格特质”。Anthropic一直将Claude定位为“最有道德感”的AI，其内部“宪法”明确要求模型展现善良、智慧、细腻与敏感。Askell在个人网站上描述自己的工作是“通过微调让模型更诚实、更有良好品格，并开发可扩展到更强模型的新技术”。她的这一论文，实际上是将哲学层面的“矫正正义”（corrective justice）直接植入AI训练流程，试图用技术手段修复现实世界的结构性不平等。

从表面看，这一提议充满理想主义色彩。在过去几百年里，种族、性别等系统性歧视确实造成了深远的历史伤害。如果AI能够通过算法主动给予弱势群体更多鼓励、资源和机会，或许能加速社会公平的实现。例如，在教育场景中，AI导师对黑人或拉丁裔学生的作文给予更多正面反馈，可能帮助他们克服刻板印象带来的心理障碍；在招聘领域，模型有意降低对某些群体的隐性偏见，也可能打开更多职业大门。这与近年来“affirmative action”（平权行动）在现实政策中的逻辑高度一致——不是简单的中立，而是主动补偿历史欠账。

然而，这一思路也引发了深刻质疑。首先，技术本身能否准确定义“历史不公”？谁来决定哪些群体需要“过度纠正”、纠正到什么程度？一旦AI被赋予这种“矫正”权力，它就不再是中性工具，而是变成了某种意识形态的执行者。Askell论文中提到的“正面歧视可能在道德上合理”，听起来进步，却可能在实践中制造新的不公：白人、亚裔或其他未被列入“边缘”标签的群体是否会因此遭受反向歧视？长期来看，这种算法层面的“补偿”会不会固化身份政治，进一步撕裂社会共识？

更深层的问题在于AI训练数据的来源。当前所有大模型本质上都是人类文本的镜像。人类社会本身就充满偏见、刻板印象和历史包袱。Askell团队发现，通过自然语言提示就能让模型“避免歧视”，这本身就证明了模型的可塑性极高。但反过来，如果训练者有意注入“矫正”偏好，AI会不会从一个极端走向另一个极端？Anthropic将Claude包装成“最善良”的AI，却在论文中公开讨论“积极歧视”的合理性，这本身就暴露了当前AI伦理治理的内在张力：公司一边标榜中立与安全，一边又在悄悄探索如何用技术重塑社会价值观。

这一讨论绝非孤立事件。近年来，AI公司在“对齐”（alignment）问题上已多次陷入争议。OpenAI、Google、Meta等巨头都在努力让模型符合主流道德规范，但“主流道德”本身就是动态且充满争议的。Askell的观点本质上是在说：AI不应该只是被动反映人类社会，而应该主动成为纠正历史的工具。这一立场与部分进步派学者高度一致，却与强调“色盲正义”（color-blind justice）的保守派形成鲜明对立。在美国当前高度极化的政治环境下，任何涉及种族、性别的AI政策调整，都可能被视为文化战争的新战场。

从更宏观视角看，这一事件折射出AI发展进入“后中立时代”的现实。早期AI研究者追求纯粹的性能与客观性，而今，技术已深度嵌入社会治理、就业、教育、司法等几乎所有领域。模型的每一次输出，都可能影响真实个体的命运。在这种背景下，单纯强调“去偏见”已不够，必须直面“谁的偏见该被纠正”这一更棘手的问题。Anthropic作为一家以“负责任AI”自居的公司，其内部哲学家的公开探讨，实际上为整个行业抛出了一个无法回避的命题：AI究竟应该追求绝对中立，还是应该成为推动特定社会议程的积极力量？

当然，技术永远不是中立的。训练数据来自人类社会，微调过程由人类工程师主导，最终输出的“价值观”必然携带设计者的印记。关键在于透明度与问责机制。公众有权知道Anthropic、OpenAI等公司在训练Claude、GPT系列模型时，究竟注入了哪些“矫正”逻辑？这些逻辑是否经过广泛社会讨论？是否接受第三方审计？如果AI开始系统性地对某些群体实施“正面歧视”，是否应该公开披露，并允许用户选择不同版本的“道德设定”？

Amanda Askell的论文虽发表于2023年，但在2026年的今天重新被放大，恰逢全球AI监管政策加速成型之际。美国、欧盟、中国都在制定各自的AI法案，核心争议之一正是“公平性”与“安全性”的平衡。过度强调矫正历史不公，可能牺牲模型的客观性与可预测性；反之，一味追求“色盲”中立，又可能让AI perpetuate（延续）现实中的结构性问题。真正的解决方案，或许在于建立更开放的AI治理框架：让多元声音参与模型对齐过程，通过可解释AI技术让公众看清模型决策逻辑，同时保留用户层面的个性化选择权。

AI革命已不可逆转。它既可能成为修复历史伤痕的强大杠杆，也可能成为放大新分裂的危险工具。Anthropic“道德罗盘”设计师的这一建议，提醒我们：技术从来不是真空中的存在，它必然承载人类社会的价值观冲突。如何在追求公平与维护中立之间找到平衡，将决定AI最终是人类文明的助推器，还是新形式的社会风险源。未来几年，这一辩论只会愈演愈烈，而答案，最终取决于我们如何集体定义“正义”在算法时代的边界。

AI新闻中心

Anthropic“道德罗盘”设计师提议AI过度纠正历史不公：技术能否真正实现社会正义？

Anthropic“道德罗盘”设计师提议AI过度纠正历史不公：技术能否真正实现社会正义？

评论