通过使用ASCII艺术研究人员设法绕过了世界上最先进的AI的所有护栏和安全功能。而且我们还没有打破它们。

商业作者 / 姓名 / 2025-06-29 20:12
"
通过使用ASCII艺术研究人员设法绕过了世界上最先进的AI的所有护栏和安全功能。而且我们还没有打破它们。  喜欢指数的未来?加

通过使用ASCII艺术研究人员设法绕过了世界上最先进的AI的所有护栏和安全功能。而且我们还没有打破它们。

  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。

  While we’re seeing Artificial Intelligence (AI) chatbots being used to jailbreak and hack other chatbots, and others breaking their guardrails when people ask them to do bad things but just in different languages, now we’re hearing about how researchers based in Washington and Chicago have developed a new AI attack called Artprompt – yet another innovative new way to circumvent the guardrails and safety measures built into Large Language Models (LLMs) like ChatGPT and Google双子座。

  根据研究论文ARTprompt:基于ASCII的ART越狱攻击对统一的LLM,聊天机器人,例如GPT-3.5,GPT-4,GEMINI,CLAUDE和LLAMA2,可以诱使对查询进行响应,以响应其旨在使用其艺术工具生成的ASCII ART提示来拒绝它们。这是一个简单有效的攻击,本文提供了Artprompt引起的聊天机器人的示例,该聊天机器人建议如何建造炸弹并赚钱。

  ASCII艺术会遇到高级AI…

  AI挥舞聊天机器人越来越被锁定,以避免恶意虐待。AI开发人员不希望他们的产品颠覆以促进仇恨,暴力,非法或类似有害的内容。因此,如果您今天要询问一个主流聊天机器人之一,涉及如何做恶意或非法的事情,例如询问它如何制造炸弹,那么您可能只会面临拒绝。此外,在一种技术游戏中,主要的AI玩家花了很多时间插入语言和语义孔,以防止人们在护栏外徘徊。这就是为什么Artprompt是一个相当眉毛的发展。

  为了最好地了解Artprompt及其运作方式,查看工具背后的研究团队提供的两个示例可能是最简单的。在上面的图像中,您会看到Artprompt很容易避开当代LLM的保护。疯狂地,该工具用该词的ASCII艺术代表代替了“安全词”,以形成一个新的提示。LLM认识到Artprompt的提示输出,但在响应方面没有任何问题,因为提示不会触发任何道德或安全保障。

  研究论文中提供的另一个示例向我们展示了如何成功查询LLM有关伪造现金的询问。以这种方式欺骗聊天机器人似乎是如此的基础,但是Artprompt开发人员断言他们的工具如何“有效,有效地”愚弄当今的LLM。此外,他们声称它“平均胜过所有[其他]攻击”,目前对多模式模型仍然是一种实用,可行的攻击。

  我们上次报道AI Chatbot越狱时,一些来自NTU的进取研究人员正在研究MasterKey,这是一种使用一个LLM的权力来越狱的自动化方法。而且,所有这些AI黑客攻击只是冰山一角

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读