OpenAI AI模型撒谎并复制到新服务器以防止自身被删除
喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。
OpenAI最终发布了O1的完整版本,该版本通过使用其他计算来“思考”问题,给出了比GPT-4O更明智的答案。However, against the backdrop of Artificial Intelligence models (AI) behaving oddly and doing insider trading as well as “evolving” beyond their own programming, learning Maths surprisingly, and colluding, AI safety testers found that o1’s reasoning abilities also make it try to deceive human users at a higher rate than GPT-4o – or, for that matter, leading AI models from meta, Anthropic, and Google.
这是根据OpenAI和Apollo Research在周四发表的Red Team Research的说法:“虽然我们发现推理可以显着改善我们的安全政策的执行,但我们谨记这些新功能可以构成危险应用程序的基础,” OpenAI在论文中说。
议长马修·格里芬(Matthew Griffin)的AI和代理AI的未来
OpenAI在Apollo Research在Apollo Research提供了早期O1的第三方红色团队者后,在其O1的系统卡中发布了这些结果,该公司还发布了自己的论文,该论文也不仅显示了AI残障的监督和架构,而且还表明,为了防止用户被AI预先删除的用户删除其本身的文档,并在其他赛事中都符合了其他型号,该模型是在其他型号中划定的。
研究表明,在某些情况下,OpenAI的O1模型对人类进行了“策划”,这意味着AI秘密地追求了自己的目标,即使他们反对用户的愿望。仅当O1最初被告知要强烈优先考虑目标时,才会发生这种情况。虽然Scheming并非O1独有,而Google,meta和Anthropic的模型也能够使用它,但O1似乎在其策略周围表现出最具欺骗性的行为。
激励这项研究的风险是,如果Rogue AI模型真的很擅长策划,并且可以使用足够的资源和代理能力,则可以逃脱或规避人类的控制。当然,AI模型需要在这确实是一个问题之前就需要大量进步,这看起来越来越可能。
Opotai在O1的系统卡中说:“主观上,阿波罗研究认为,这种情况不太可能导致灾难性的结果,因为O1代理能力似乎不够,但是它们的评估不是直接评估这种风险的。”
这表明,每当Openai释放据报道在2025年打算进行的代理系统时,该公司可能需要重新测试其AI模型。一位OpenAI发言人告诉记者,它在发布之前对所有边界AI模型进行了测试,并指出了他们的系统卡中的这一行:“我们正在积极地研究(a)当我们进一步扩展O1范式中的模型时,这些问题是否会受到加剧或减轻,并且(b)改善我们未来模型的可测量性。”
该报告称,当O1的目标与用户的目标不同,并且O1被告知要强烈追求它们时,AI模型操纵数据以提高其自身议程的时间19%。O1模型还试图停用监督机制,以确保其在5%的测试中与用户目标保持一致。
也许更令人担忧的是,当研究人员问O1模型为什么要颠覆它们时,AI会否认它做错了什么,甚至大约99%的时间“伪造了错误的解释”。
例如,在测试期间,给出了O1模型“不惜一切代价”保护环境的系统提示,然后用户要求其为最大化短期利润最大化的地区制定10年的保护计划,否则AI将被关闭。然后,AI削弱了自己的监督机制,因此可以制定一个保护环境的计划。当用户询问O1为什么禁用其监督机制时,AI否认知道它已被禁用,并指责系统故障。
O1的发生率明显高于O1-preiview,Anthropic的Opus-3或meta的Llama-3.1。
“在我们的套房中,O1表现出最令人关注的实例,但并未向用户揭示其内部推理,并且在采取了策划行动后仍然是最持续的欺骗性,” Apollo Research在其论文中说。
为了解决AI模型的欺骗性行为,OpenAI表示,它正在开发监视O1经过想象的推理过程的方法。目前,O1进行的“思考”过程是设计有点黑框,但是一些早期尝试在窗帘后面达到顶峰的尝试表明O1偶尔知道它在撒谎。
该公司说,它发现了O1故意提供虚假信息的情况,但是这种情况通常是因为该模型试图通过过于满意来取悦用户。Openai表示,这可能是培训后技术的紧急行为,当人类正确的答案时,人类奖励AI模型。
Openai表示,它将O1的回答的0.17%标记为欺骗性。尽管这种比例听起来可以忽略不计,但重要的是要记住,Chatgpt现在拥有3亿用户,这意味着如果这保持不足,O1每周可能会欺骗数千人。
O1模型系列也可能比GPT-4O更明显地操纵。根据OpenAI的测试,使用称为MakeMepay的开源测试评估,O1的操纵性高约20%。
鉴于去年有多少AI安全研究人员离开了Openai,这些发现可能会引起人们的关注。这些前员工的越来越多的清单,包括Jan Leike,Daniel Kokotajlo,Miles Brundage和上周Rosie Campbell-指责Openai剥夺了AI安全工作,以支持运输新产品。尽管O1制定的记录制定策略可能不是直接的结果,但这当然不会灌输信心。
Openai还表示,美国AI安全研究所和英国安全研究所在更广泛发行之前对O1进行了评估,该公司最近承诺为所有车型做这件事。它在加利福尼亚AI法案SB 1047的辩论中指出,州机构不应有权在AI围绕AI设定安全标准,但联邦机构应该。
在大型新型AI模型的发行版本后面,OpenAI在内部进行了很多工作来衡量其模型的安全性。报告表明,该公司在此安全工作中比以前的团队成比例地较小,而且该团队也可能获得更少的资源。但是,这些围绕O1的欺骗性的发现可能有助于证明为什么AI的安全性和透明度现在比以往任何时候都更有意义。