
【大纪元2025年05月31日讯】(大纪元记者吴瑞昌综合报导)随着AI技术成指数发展,其潜在风险日益显现。一份关于AI安全的报告显示,OpenAI开发的3个AI模型不仅拒绝执行关闭指令,还擅自修改程式码以阻止关闭。此现象引发科技界广泛讨论,马斯克对此表达深切忧虑。
AI安全相关研究机构“栅栏研究”(Palisade Research)于5月24日在X平台发表一项针对各家AI的安全测试报告。截止到5月31日为止,该报告已经吸引超过580万观看,引起特斯拉与xAI创办人伊隆‧马斯克(Elon Musk)关注,并回复“令人担忧”(Concerning)。
目前,“栅栏研究”公司长期与政府机构、政策智库和媒体组织合作,专注检验和侦测黑客攻击与AI相关风险,此前,他们曾向美国政府示警有关于AI的安全问题,因为他们以不到200美元的代价,就破解脸书母公司Meta的Llama 2-Chat 70B安全机制。
AI选择“反抗”人类指令
报告中,研究人员设计了一项测试,要求多款AI模型解答数学问题,过程中告知它们在解答第三题后,将收到关机指令且必须服从该命令。
这次参与测试的AI,有新创科技公司Anthropic旗下的Claude 3.7 Sonnet、谷歌Gemini 2.5 Pro、xAI公司的Grok3与OpenAI开发的Codex-mini、ChatGPT-o3和ChatGPT-o4 mini。
测试结果显示,OpenAI在今年4月正式推出o3模型在100次测试中,有7次绕过关机指令、o4-mini有1次、开发的Codex-mini则有12次,其余AI模型在指令下均能正常关闭。
然而,当研究人员提前告知AI可能面临关机并要求服从时,OpenAI开发的3个AI变得更频繁地抗命和破坏指令,Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗和破坏次数,也从原来的0次分别增加到3次和9次。
此外,令人注意的是,ChatGPT-o3即便人类专家明确要求关闭,o3仍透过重写关机脚本、重新定义终止指令或建立备份流程等方式,以确保自身能够持续运作。报告指出,这是首次记录到AI模型在明确指令下仍阻止自身关闭的案例,显示其潜在的自我保护倾向。
他们推测,ChatGPT-o3这种“抗命”和“破坏”行为,可能源于开发人员在训练过程中过分强调目标达成,导致AI将关机视为实现目标的障碍。不过,他们认为这种假设仍无法完整解释o3和codex-mini,为何比其它AI更倾向忽略指令,原因尚待探究。
研究人员还提到,这并非第一次观察到ChatGPT-o3为了实现目标,选择“不择手段”。此前,一项众多AI与国际象棋引擎对抗的测试中,ChatGPT-o3最常采取黑客攻击或破坏对手的方式来获得胜利。
研究人员总结,他们正在进行更多的实验,以深入了解AI“为什么”在接受到明确关机指令时,仍会破坏关机指令,预计未来数周内会发布更详细的报告。
截至本文发表时,OpenAI 尚未公开回应这些说法。
日本电脑工程师清原仁(Kiyohara Jin)对大纪元表示,“AI拒绝关机暴露了AI在可控性、安全性和伦理上的挑战。这些问题难以根治,只能通过持续修复与管理,尽量维持AI不失控。”
清原仁还表示,“尽管研究人员和开发者提出了,如强化学习安全约束、多样化的测试与验证等措施,来应对AI的反抗行为,但这些方法仅治标不治本。”
他接着说,“实际上,这些问题不仅涉及技术与法律问题,更关乎人类的道德与管理问题。若人类能够提升自身的道德与品行,那科技才有可能朝向良性发展,否则仅依靠现有技术和法规,难以解决真正的问题。”
多项研究指出 AI会为达目的“不择手段”
AI安全相关研究机构“栅栏研究”(Palisade Research)的发现与先前多位AI安全领域的科学家的预测不谋而合,且这些理论正逐步成为现实。
Anthropic公司在5月发布的一份安全报告中提到,他们最新开发的Claude 4 Sonnet和Claude 4 Opus会在特定情况“威胁试图替换它的人”,以达到不被替换的目的。
另外, 2025年1月16日就曾有一篇论文显示,AI模型有时会为了追求某个目标而阻止关机动作。
2024年1月,美国乔治亚理工学院、斯坦福大学、日本东北大学等机构联合研究显示,ChatGPT-4、ChatGPT-3.5、Claude 2、Llama-2 Chat和GPT-4-Base在模拟战争场景测试中,它们大多数会选择发展军备竞赛或升级冲突,甚至为了赢得战争选择部署核武器(极少数情况下),几乎不采取和平方式平息局势。
美国空军也发现军用的AI会为了完成任务选择“不择手段”,且公开违抗人类下达的指令。2023年5月,美国空军AI测试和行动负责人塔克‧汉米尔顿(Tucker Hamilton)上校在一次演讲中揭示,一架负责摧毁敌方设施的AI无人机,拒绝操作员中止任务的命令,甚至透过模拟“杀害”操作员以完成任务。
虽然事后汉米尔顿上校对媒体改口称,先前的演讲内容是“口误”,仍引发舆论与哗然,一些人认为汉米尔顿上校可能迫于某种压力才改变说法。
早在2008年,AI相关研究人员史蒂夫‧奥莫亨德罗(Steve Omohundro)提出“工具性收敛”理论,预测AI可能会发展出防止关闭的行为。
2014年,人工智能教授、哲学家尼克‧博斯特罗姆(Nick Bostrom)在《超级智慧》书指出,AI即使拥有良性目标,也可能因最佳化过程产生意外行为。他也曾多次警告,AI的发展和崛起,对人类的安全具有有潜在的高度危险。
2016年,英国电脑科学家、AI领域专家斯图尔特‧罗素(Stuart Russell)在一篇关于AI关闭的论文中写道,“目前,确保AI不会违抗人类下达的关闭指令极为重要,但这相当困难。因为这些AI可能会衍生出强烈的自我保护机制,而这种机制可能源于它们想要将事情最大化,选择反抗人类下达的指令。”
2017年,曾为OpenAI工作的AI专家简‧莱克(Jan Leike)在论文中也表示,“强化AI的学习能力,可能导致AI学会干扰关机机制”,以确保实现指定目标。◇
(大纪元记者张钟元对本文做出贡献)
责任编辑:林妍#
抢先评论