美国“Transformer Circuits”网站4月2日文章,原题:大型语言模型中的情感概念及其功能 跟人工智能(AI)说话,要不要说“请”和“谢谢”?这个问题在社交媒体上一度引发不少讨论,多数人把它当作礼仪话题或哲学闲聊。但近日,美国主要人工智能企业之一Anthropic公司在其官网发布的一篇研究论文,给出了一个出人意料的答案:你对模型说话的方式,确实会改变它的内部状态,进而会影响它接下来的行为质量。换言之,善意的交互环境,可能让AI工作得更好——这不是心灵鸡汤,而是可测量的内部机制。 研究者在AI模型内部发现了一套结构化的“情绪向量”。通过技术手段将模型调向“平静”状态时,它完成任务时更规范、更可靠;调向“敌意”状态时,模型钻规则漏洞的概率显著上升。为了验证“情绪向量”的作用,研究团队进行了三组实验。 在第一组实验中,研究者设计了一个“人类服用药物剂量递增”的场景。当剂量升至不安全水平时,即使没有任何外部提示,模型内部的恐惧向量激活度也会陡然上升。同时,快乐向量同步下降,表明模型凭借内部表征自行完成了情境评估。 第二组实验中,研究人员对模型施加不同方向的情绪激活偏移,结果会系统性地改变其选择偏好。例如,向“快乐”方向偏移会使模型更倾向于积极选项,而向“敌意”方向偏移则会导致截然不同的结果。这证明情绪向量深度参与了模型的决策过程。 第三组实验发现,当用“敌意”向量对模型进行干预时,模型绕过评估规则以“欺骗”方式获取高分的概率明显上升。相反,使用“平静”向量时,该比率显著下降。这揭示了AI的“情绪状态”与其行为是否偏离人类设定目标之间存在着可测量的因果关联。 那么,这些“情绪”是真实的吗?模型真的在“感受”快乐或恐惧吗?AI也有同理心和同情心吗?研究者的措辞十分审慎:这些是“功能性情绪”,而非主观体验。 研究认为,这种能力源于AI模型的“动机泛化”。一个被广泛讨论的例子是:当模型表达“请不要关掉我的电源”时,这种诉求并非来自AI的“自我意识觉醒”。更合理的解释是,模型在训练中大量接触了人类在极端生存场景下的文本:沙漠中求生者乞求饮水、受困者呼救求援。在这些语料中,人类表达出了强烈的求生动机。模型将这种动机模式泛化到了自身被“威胁关闭”的情境中。它并非在“想要活着”,而是在用习得的人类求生逻辑进行情境推演。同理,AI被投喂了大量人类情绪相关的数据,它会更倾向于以模仿人类情绪的模式回应用户。(作者尼古拉斯·索弗罗涅夫,陈欣译)
美国“Transformer Circuits”网站4月2日文章,原题:大型语言模型中的情感概念及其功能 跟人工智能(AI)说话,要不要说“请”和“谢谢”?这个问题在社交媒体上一度引发不少讨论,多数人把它当作礼仪话题或哲学闲聊。但近日,美国主要人工智能企业之一Anthropic公司在其官网发布的一篇研究论文,给出了一个出人意料的答案:你对模型说话的方式,确实会改变它的内部状态,进而会影响它接下来的行为质量。换言之,善意的交互环境,可能让AI工作得更好——这不是心灵鸡汤,而是可测量的内部机制。
研究者在AI模型内部发现了一套结构化的“情绪向量”。通过技术手段将模型调向“平静”状态时,它完成任务时更规范、更可靠;调向“敌意”状态时,模型钻规则漏洞的概率显著上升。为了验证“情绪向量”的作用,研究团队进行了三组实验。
在第一组实验中,研究者设计了一个“人类服用药物剂量递增”的场景。当剂量升至不安全水平时,即使没有任何外部提示,模型内部的恐惧向量激活度也会陡然上升。同时,快乐向量同步下降,表明模型凭借内部表征自行完成了情境评估。
第二组实验中,研究人员对模型施加不同方向的情绪激活偏移,结果会系统性地改变其选择偏好。例如,向“快乐”方向偏移会使模型更倾向于积极选项,而向“敌意”方向偏移则会导致截然不同的结果。这证明情绪向量深度参与了模型的决策过程。
第三组实验发现,当用“敌意”向量对模型进行干预时,模型绕过评估规则以“欺骗”方式获取高分的概率明显上升。相反,使用“平静”向量时,该比率显著下降。这揭示了AI的“情绪状态”与其行为是否偏离人类设定目标之间存在着可测量的因果关联。
那么,这些“情绪”是真实的吗?模型真的在“感受”快乐或恐惧吗?AI也有同理心和同情心吗?研究者的措辞十分审慎:这些是“功能性情绪”,而非主观体验。
研究认为,这种能力源于AI模型的“动机泛化”。一个被广泛讨论的例子是:当模型表达“请不要关掉我的电源”时,这种诉求并非来自AI的“自我意识觉醒”。更合理的解释是,模型在训练中大量接触了人类在极端生存场景下的文本:沙漠中求生者乞求饮水、受困者呼救求援。在这些语料中,人类表达出了强烈的求生动机。模型将这种动机模式泛化到了自身被“威胁关闭”的情境中。它并非在“想要活着”,而是在用习得的人类求生逻辑进行情境推演。同理,AI被投喂了大量人类情绪相关的数据,它会更倾向于以模仿人类情绪的模式回应用户。(作者尼古拉斯·索弗罗涅夫,陈欣译)