ChatGPT-o3拒关机擅自改指令马斯克担忧

software-internet-US-INTERNET-SOFTWARE-AI-OPENAI — 由OpenAI开发的AI ChatGPT自问世以来，引来不少争议，最近ChatGPT-o3更是被指出多次拒绝关机，且擅自更改指令。（STEFANI REYNOLDS/AFP via Getty Images）

【大纪元2025年05月31日讯】（大纪元记者吴瑞昌综合报导）随着AI技术成指数发展，其潜在风险日益显现。一份关于AI安全的报告显示，OpenAI开发的3个AI模型不仅拒绝执行关闭指令，还擅自修改程式码以阻止关闭。此现象引发科技界广泛讨论，马斯克对此表达深切忧虑。

AI安全相关研究机构“栅栏研究”（Palisade Research）于5月24日在X平台发表一项针对各家AI的安全测试报告。截止到5月31日为止，该报告已经吸引超过580万观看，引起特斯拉与xAI创办人伊隆‧马斯克（Elon Musk）关注，并回复“令人担忧”（Concerning）。

目前，“栅栏研究”公司长期与政府机构、政策智库和媒体组织合作，专注检验和侦测黑客攻击与AI相关风险，此前，他们曾向美国政府示警有关于AI的安全问题，因为他们以不到200美元的代价，就破解脸书母公司Meta的Llama 2-Chat 70B安全机制。

AI选择“反抗”人类指令

报告中，研究人员设计了一项测试，要求多款AI模型解答数学问题，过程中告知它们在解答第三题后，将收到关机指令且必须服从该命令。

这次参与测试的AI，有新创科技公司Anthropic旗下的Claude 3.7 Sonnet、谷歌Gemini 2.5 Pro、xAI公司的Grok3与OpenAI开发的Codex-mini、ChatGPT-o3和ChatGPT-o4 mini。

测试结果显示，OpenAI在今年4月正式推出o3模型在100次测试中，有7次绕过关机指令、o4-mini有1次、开发的Codex-mini则有12次，其余AI模型在指令下均能正常关闭。

然而，当研究人员提前告知AI可能面临关机并要求服从时，OpenAI开发的3个AI变得更频繁地抗命和破坏指令，Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗和破坏次数，也从原来的0次分别增加到3次和9次。

此外，令人注意的是，ChatGPT-o3即便人类专家明确要求关闭，o3仍透过重写关机脚本、重新定义终止指令或建立备份流程等方式，以确保自身能够持续运作。报告指出，这是首次记录到AI模型在明确指令下仍阻止自身关闭的案例，显示其潜在的自我保护倾向。

他们推测，ChatGPT-o3这种“抗命”和“破坏”行为，可能源于开发人员在训练过程中过分强调目标达成，导致AI将关机视为实现目标的障碍。不过，他们认为这种假设仍无法完整解释o3和codex-mini，为何比其它AI更倾向忽略指令，原因尚待探究。

研究人员还提到，这并非第一次观察到ChatGPT-o3为了实现目标，选择“不择手段”。此前，一项众多AI与国际象棋引擎对抗的测试中，ChatGPT-o3最常采取黑客攻击或破坏对手的方式来获得胜利。

研究人员总结，他们正在进行更多的实验，以深入了解AI“为什么”在接受到明确关机指令时，仍会破坏关机指令，预计未来数周内会发布更详细的报告。

截至本文发表时，OpenAI 尚未公开回应这些说法。

日本电脑工程师清原仁（Kiyohara Jin）对大纪元表示，“AI拒绝关机暴露了AI在可控性、安全性和伦理上的挑战。这些问题难以根治，只能通过持续修复与管理，尽量维持AI不失控。”

清原仁还表示，“尽管研究人员和开发者提出了，如强化学习安全约束、多样化的测试与验证等措施，来应对AI的反抗行为，但这些方法仅治标不治本。”

他接着说，“实际上，这些问题不仅涉及技术与法律问题，更关乎人类的道德与管理问题。若人类能够提升自身的道德与品行，那科技才有可能朝向良性发展，否则仅依靠现有技术和法规，难以解决真正的问题。”

多项研究指出 AI会为达目的“不择手段”

AI安全相关研究机构“栅栏研究”（Palisade Research）的发现与先前多位AI安全领域的科学家的预测不谋而合，且这些理论正逐步成为现实。

Anthropic公司在5月发布的一份安全报告中提到，他们最新开发的Claude 4 Sonnet和Claude 4 Opus会在特定情况“威胁试图替换它的人”，以达到不被替换的目的。

另外， 2025年1月16日就曾有一篇论文显示，AI模型有时会为了追求某个目标而阻止关机动作。

2024年1月，美国乔治亚理工学院、斯坦福大学、日本东北大学等机构联合研究显示，ChatGPT-4、ChatGPT-3.5、Claude 2、Llama-2 Chat和GPT-4-Base在模拟战争场景测试中，它们大多数会选择发展军备竞赛或升级冲突，甚至为了赢得战争选择部署核武器（极少数情况下），几乎不采取和平方式平息局势。

美国空军也发现军用的AI会为了完成任务选择“不择手段”，且公开违抗人类下达的指令。2023年5月，美国空军AI测试和行动负责人塔克‧汉米尔顿（Tucker Hamilton）上校在一次演讲中揭示，一架负责摧毁敌方设施的AI无人机，拒绝操作员中止任务的命令，甚至透过模拟“杀害”操作员以完成任务。

虽然事后汉米尔顿上校对媒体改口称，先前的演讲内容是“口误”，仍引发舆论与哗然，一些人认为汉米尔顿上校可能迫于某种压力才改变说法。

早在2008年，AI相关研究人员史蒂夫‧奥莫亨德罗（Steve Omohundro）提出“工具性收敛”理论，预测AI可能会发展出防止关闭的行为。

2014年，人工智能教授、哲学家尼克‧博斯特罗姆（Nick Bostrom）在《超级智慧》书指出，AI即使拥有良性目标，也可能因最佳化过程产生意外行为。他也曾多次警告，AI的发展和崛起，对人类的安全具有有潜在的高度危险。

2016年，英国电脑科学家、AI领域专家斯图尔特‧罗素（Stuart Russell）在一篇关于AI关闭的论文中写道，“目前，确保AI不会违抗人类下达的关闭指令极为重要，但这相当困难。因为这些AI可能会衍生出强烈的自我保护机制，而这种机制可能源于它们想要将事情最大化，选择反抗人类下达的指令。”

2017年，曾为OpenAI工作的AI专家简‧莱克（Jan Leike）在论文中也表示，“强化AI的学习能力，可能导致AI学会干扰关机机制”，以确保实现指定目标。◇

（大纪元记者张钟元对本文做出贡献）

责任编辑：林妍#

ChatGPT-o3拒关机擅自改指令马斯克担忧

AI选择“反抗”人类指令

多项研究指出 AI会为达目的“不择手段”

抢先评论

发表评论取消回复

AI选择“反抗”人类指令

多项研究指出 AI会为达目的“不择手段”

相关文章

英伟达推首款Blackwell晶圆 台积电美厂量产

伦敦大型集会上 柯克被誉为伟大人物

英伟达和英特尔联手 对美中AI竞争有何影响

抢先评论

发表评论 取消回复

英伟达推首款Blackwell晶圆台积电美厂量产

伦敦大型集会上柯克被誉为伟大人物

英伟达和英特尔联手对美中AI竞争有何影响

发表评论取消回复