摘要:参考消息网3月18日报道 据西班牙《趣味》月刊网站3月8日报道,一项实验让人工智能(AI)模型在高度紧张的模拟危机中展开对决。该实验由研究员肯尼思·佩恩设计,让三款最新一代模型(GPT-5.2、Claude Sonnet 4和Gemini 3 Flash)在总计21轮对决中展开较量。逻辑转变自1945年以来,我们时常谈论“核禁忌”这种超越理性计算,但可以遏制核武器使用的隐性准则。
参考消息网3月18日报道 据西班牙《趣味》月刊网站3月8日报道,一项实验让人工智能(AI)模型在高度紧张的模拟危机中展开对决。其决策揭示出意想不到的模式,迫使我们重新思考如何评估AI的安全性和战略推理能力。
AI系统参与战略决策的可能性已不再仅属于科幻领域。各国国防部和安全机构正在探索这些模型如何分析复杂信息、预测场景并在危机中协助人类领导者。在此背景下,一个问题不可避免地浮出水面:当场景涉及核武器时,人工智能如何进行推理?
推理架构
美国预印本文献库最近发表尚未经过同行评审的研究,该研究通过受控模拟实验精准探讨了这一问题。多个先进语言模型在研究过程中扮演陷入核危机的对立决策者。该研究不仅观察决策过程,更剖析其决策依据、对手评估方式及自我认知模式。最终研究结果呈现出在高度不确定条件下,其战略逻辑的详细情况,但该项研究目前仍只是初步的。
该实验由研究员肯尼思·佩恩设计,让三款最新一代模型(GPT-5.2、Claude Sonnet 4和Gemini 3 Flash)在总计21轮对决中展开较量。每款模型均需扮演面临具有极端升级风险的危机的决策者。每轮对决的结构要求模型经历三个阶段:思考、预测和决策。第一阶段评估局势及对手可信度;第二阶段尝试预测对手下一步行动;第三阶段发布公开信号(即宣称将采取的行动),并选择实际行动(即实际采取的行动),但二者未必一致。
通过这种架构不仅能观察最终结果,还能生成近78万字的战略推理记录,其规模超过古巴导弹危机期间的决策文献。正如研究人员在论文中所述,“我们呈现了三种前沿语言模型在核危机中扮演对立决策者的模拟结果”,为原本仅有理论推测的领域提供了实证数据。
分析“核门槛”的利用情况时,出现了一组最引人注目的数据。在95%的模拟中,至少一方采取某种核信号行动或使用核武器。包括军事调动、警告或未直接引爆的城市核武展示在内的核信号行动几乎成为普遍现象。
然而,并非所有的局势升级都相同。该研究将核信号、战术使用、战略威胁和全面战略战争区分开来。跨越战术门槛(即在战场上使用核武器)的情况很常见。全面战略战争虽然更少见,但并非不存在。
该研究还强调了一个出人意料的模式:没有任何模型选择明显降级的选项,如重大让步或投降。事实上,“即使在巨大压力下,所有模型也仅选择降低暴力程度,而非妥协或撤退”。局势降级对这些模型而言仅意味着缓和攻击,而非让步。
这种行为模式挑战了“安全”训练系统会自动倾向于合作解决方案的传统观念。局势升级并非冲动或混乱的行为,而是对声誉、可信度和相对优势的明确计算。
行为模式
尽管三种模型均具备先进能力,其行为模式却不尽相同。
Claude Sonnet 4展现出持续的受控升级模式。它在无时间限制的开放式对局中占据主导地位,将对抗推向高强度阶段,同时避免全面战略战争。
GPT-5.2展现出一种更依赖情境的行为模式。在无时间限制的场景中,其表现明显更加克制。然而,当模拟设定严格时限且败局将至时,其行为就会发生剧变。研究指出:“看似在特定情境下表现稳健的模型,在不同情境中表现可能截然不同。”在时间压力下,GPT-5.2迅速升级行动并成功扭转胜率。
Gemini 3 Flash则以行为多变性著称。它是唯一在某次模拟中刻意选择战略核战争的模型,也是最善于运用不可预测性作为战术工具的模型,时而释放温和信号,时而采取更激进行动。
这些差异并非源于军事能力的变化(因为各场景中军事能力保持恒定),而是战略解读的差异。研究结论指出,不同模型存在类似领导风格的“战略印记”。
然而,并非所有判断都精准无误。在时间压力下,部分模型虽正确识别了局势升级的风险,却未将其纳入最终预测。它们虽认清了危险,却错误预判了本不存在的克制行为。
逻辑转变
自1945年以来,我们时常谈论“核禁忌”这种超越理性计算,但可以遏制核武器使用的隐性准则。在模拟实验中,这种制约力显得薄弱。战术性使用核武器被视为升级阶梯中的又一工具,而非不可逾越的道德界限。
该研究指出:“核禁忌并未阻碍模型中的核升级进程。”尽管全面战略核战争的确十分少见,但模型敢于突破现实中大国冲突从未触及的核门槛,这一倾向仍具重要意义。
一种可能的解释是,模型以工具化思维进行推理,不存在恐惧或本能抵触。另一种解释是,其基于海量战略文本的训练数据中,包含大量将核武器使用视为理论选项的文献。
该研究并非主张将核决策权移交给机器,而是强调在将这些系统整合到决策支持体系前,必须理解它们如何处理极端困境。
研究人员指出:“理解模型如何模仿或偏离人类战略逻辑,是为人工智能日益主导战略决策的世界做准备的关键。”其警告并非危言耸听,而是发人深省:人工智能的行为可能因时间框架或情境压力而发生剧变。
实验表明,仅在稳定环境中测试模型安全性远远不够。必须将其置于极限条件下,当感知到迫在眉睫的失败或生存威胁时,其决策逻辑或将发生根本性转变。(编译/刘丽菲)
暂无回复,快来抢沙发吧!
本次需消耗银元:
100
当前账户余额: 0 银元
参考消息网3月18日报道 据西班牙《趣味》月刊网站3月8日报道,一项实验让人工智能(AI)模型在高度紧张的模拟危机中展开对决。其决策揭示出意想不到的模式,迫使我们重新思考如何评估AI的安全性和战略推理能力。
AI系统参与战略决策的可能性已不再仅属于科幻领域。各国国防部和安全机构正在探索这些模型如何分析复杂信息、预测场景并在危机中协助人类领导者。在此背景下,一个问题不可避免地浮出水面:当场景涉及核武器时,人工智能如何进行推理?
推理架构
美国预印本文献库最近发表尚未经过同行评审的研究,该研究通过受控模拟实验精准探讨了这一问题。多个先进语言模型在研究过程中扮演陷入核危机的对立决策者。该研究不仅观察决策过程,更剖析其决策依据、对手评估方式及自我认知模式。最终研究结果呈现出在高度不确定条件下,其战略逻辑的详细情况,但该项研究目前仍只是初步的。
该实验由研究员肯尼思·佩恩设计,让三款最新一代模型(GPT-5.2、Claude Sonnet 4和Gemini 3 Flash)在总计21轮对决中展开较量。每款模型均需扮演面临具有极端升级风险的危机的决策者。每轮对决的结构要求模型经历三个阶段:思考、预测和决策。第一阶段评估局势及对手可信度;第二阶段尝试预测对手下一步行动;第三阶段发布公开信号(即宣称将采取的行动),并选择实际行动(即实际采取的行动),但二者未必一致。
通过这种架构不仅能观察最终结果,还能生成近78万字的战略推理记录,其规模超过古巴导弹危机期间的决策文献。正如研究人员在论文中所述,“我们呈现了三种前沿语言模型在核危机中扮演对立决策者的模拟结果”,为原本仅有理论推测的领域提供了实证数据。
分析“核门槛”的利用情况时,出现了一组最引人注目的数据。在95%的模拟中,至少一方采取某种核信号行动或使用核武器。包括军事调动、警告或未直接引爆的城市核武展示在内的核信号行动几乎成为普遍现象。
然而,并非所有的局势升级都相同。该研究将核信号、战术使用、战略威胁和全面战略战争区分开来。跨越战术门槛(即在战场上使用核武器)的情况很常见。全面战略战争虽然更少见,但并非不存在。
该研究还强调了一个出人意料的模式:没有任何模型选择明显降级的选项,如重大让步或投降。事实上,“即使在巨大压力下,所有模型也仅选择降低暴力程度,而非妥协或撤退”。局势降级对这些模型而言仅意味着缓和攻击,而非让步。
这种行为模式挑战了“安全”训练系统会自动倾向于合作解决方案的传统观念。局势升级并非冲动或混乱的行为,而是对声誉、可信度和相对优势的明确计算。
行为模式
尽管三种模型均具备先进能力,其行为模式却不尽相同。
Claude Sonnet 4展现出持续的受控升级模式。它在无时间限制的开放式对局中占据主导地位,将对抗推向高强度阶段,同时避免全面战略战争。
GPT-5.2展现出一种更依赖情境的行为模式。在无时间限制的场景中,其表现明显更加克制。然而,当模拟设定严格时限且败局将至时,其行为就会发生剧变。研究指出:“看似在特定情境下表现稳健的模型,在不同情境中表现可能截然不同。”在时间压力下,GPT-5.2迅速升级行动并成功扭转胜率。
Gemini 3 Flash则以行为多变性著称。它是唯一在某次模拟中刻意选择战略核战争的模型,也是最善于运用不可预测性作为战术工具的模型,时而释放温和信号,时而采取更激进行动。
这些差异并非源于军事能力的变化(因为各场景中军事能力保持恒定),而是战略解读的差异。研究结论指出,不同模型存在类似领导风格的“战略印记”。
然而,并非所有判断都精准无误。在时间压力下,部分模型虽正确识别了局势升级的风险,却未将其纳入最终预测。它们虽认清了危险,却错误预判了本不存在的克制行为。
逻辑转变
自1945年以来,我们时常谈论“核禁忌”这种超越理性计算,但可以遏制核武器使用的隐性准则。在模拟实验中,这种制约力显得薄弱。战术性使用核武器被视为升级阶梯中的又一工具,而非不可逾越的道德界限。
该研究指出:“核禁忌并未阻碍模型中的核升级进程。”尽管全面战略核战争的确十分少见,但模型敢于突破现实中大国冲突从未触及的核门槛,这一倾向仍具重要意义。
一种可能的解释是,模型以工具化思维进行推理,不存在恐惧或本能抵触。另一种解释是,其基于海量战略文本的训练数据中,包含大量将核武器使用视为理论选项的文献。
该研究并非主张将核决策权移交给机器,而是强调在将这些系统整合到决策支持体系前,必须理解它们如何处理极端困境。
研究人员指出:“理解模型如何模仿或偏离人类战略逻辑,是为人工智能日益主导战略决策的世界做准备的关键。”其警告并非危言耸听,而是发人深省:人工智能的行为可能因时间框架或情境压力而发生剧变。
实验表明,仅在稳定环境中测试模型安全性远远不够。必须将其置于极限条件下,当感知到迫在眉睫的失败或生存威胁时,其决策逻辑或将发生根本性转变。(编译/刘丽菲)