美媒：对AI说“请”“谢谢”，可能真的有用

美国“Transformer Circuits”网站4月2日文章，原题：大型语言模型中的情感概念及其功能 跟人工智能（AI）说话，要不要说“请”和“谢谢”？这个问题在社交媒体上一度引发不少讨论，多数人把它当作礼仪话题或哲学闲聊。但近日，美国主要人工智能企业之一Anthropic公司在其官网发布的一篇研究论文，给出了一个出人意料的答案：你对模型说话的方式，确实会改变它的内部状态，进而会影响它接下来的行为质量。换言之，善意的交互环境，可能让AI工作得更好——这不是心灵鸡汤，而是可测量的内部机制。

研究者在AI模型内部发现了一套结构化的“情绪向量”。通过技术手段将模型调向“平静”状态时，它完成任务时更规范、更可靠；调向“敌意”状态时，模型钻规则漏洞的概率显著上升。为了验证“情绪向量”的作用，研究团队进行了三组实验。

在第一组实验中，研究者设计了一个“人类服用药物剂量递增”的场景。当剂量升至不安全水平时，即使没有任何外部提示，模型内部的恐惧向量激活度也会陡然上升。同时，快乐向量同步下降，表明模型凭借内部表征自行完成了情境评估。

第二组实验中，研究人员对模型施加不同方向的情绪激活偏移，结果会系统性地改变其选择偏好。例如，向“快乐”方向偏移会使模型更倾向于积极选项，而向“敌意”方向偏移则会导致截然不同的结果。这证明情绪向量深度参与了模型的决策过程。

第三组实验发现，当用“敌意”向量对模型进行干预时，模型绕过评估规则以“欺骗”方式获取高分的概率明显上升。相反，使用“平静”向量时，该比率显著下降。这揭示了AI的“情绪状态”与其行为是否偏离人类设定目标之间存在着可测量的因果关联。

那么，这些“情绪”是真实的吗？模型真的在“感受”快乐或恐惧吗？AI也有同理心和同情心吗？研究者的措辞十分审慎：这些是“功能性情绪”，而非主观体验。

研究认为，这种能力源于AI模型的“动机泛化”。一个被广泛讨论的例子是：当模型表达“请不要关掉我的电源”时，这种诉求并非来自AI的“自我意识觉醒”。更合理的解释是，模型在训练中大量接触了人类在极端生存场景下的文本：沙漠中求生者乞求饮水、受困者呼救求援。在这些语料中，人类表达出了强烈的求生动机。模型将这种动机模式泛化到了自身被“威胁关闭”的情境中。它并非在“想要活着”，而是在用习得的人类求生逻辑进行情境推演。同理，AI被投喂了大量人类情绪相关的数据，它会更倾向于以模仿人类情绪的模式回应用户。（作者尼古拉斯·索弗罗涅夫，陈欣译）

新留园

美媒：对AI说“请”“谢谢”，可能真的有用

购买奏折推广