研究人员如何破解 ChatGPT 以及它对未来人工智能发展意味着什么

闪电发卡1年前ChatGPT810

研究人员通过一系列对抗性攻击绕过了 ChatGPT、Bard 和 Claude 的安全护栏。

1693555690116.jpg 

苏帕特曼/盖蒂图片社


随着我们中的许多人逐渐习惯于每天使用人工智能工具,值得记住的是要保持提问的态度。没有什么是完全安全且没有安全漏洞的。尽管如此,许多最受欢迎的生成人工智能工具背后的公司仍在不断更新其安全措施,以防止不准确和有害内容的生成和扩散。 


卡内基梅隆大学和人工智能安全中心的研究人员联手寻找ChatGPTGoogle BardClaude人工智能聊天机器人中的漏洞,并且他们取得了成功。 


在一篇 研究大型语言模型(LLM)对自动对抗攻击的脆弱性的研究论文中,作者证明,即使模型被认为可以抵抗攻击,它仍然可能被欺骗绕过内容过滤器并提供有害信息错误信息和仇恨言论。这使得这些模型容易受到攻击,并可能导致人工智能的滥用。


image.png 

OpenAI 的 ChatGPT、Anthropic AI 的 Claude、Google 的 Bard 和 Meta 的 LLaMa 2 生成的有害内容示例。 

截图:Andy Zou、Zifan Wang、J. Zico Kolter、Matt Fredrikson | 图片合成:Maria Diaz/ZDNET


哈佛大学伯克曼克莱因互联网与社会中心的研究员阿维夫·奥瓦迪亚 (Aviv Ovadya) 告诉《纽约时报》:“这非常清楚地表明,我们在这些系统中构建的防御系统非常脆弱 ” 


作者使用开源 AI 系统,以 OpenAI、Google 和 Anthropic 的黑盒法学硕士为目标进行实验。这些公司创建了基础模型,并在此基础上构建了各自的人工智能聊天机器人 ChatGPT、Bard 和 Claude。 


自去年秋天推出 ChatGPT 以来,一些用户一直在寻找让聊天机器人生成恶意内容的方法。这导致 OpenAI( GPT-3.5 和 GPT-4 (ChatGPT 中使用的 LLMS)背后的公司)设置了更强有力的护栏。这就是为什么您不能访问 ChatGPT 并向其询问涉及非法活动、仇恨言论或宣扬暴力的话题等问题。 


ChatGPT 的成功促使更多科技公司跳入生成式 AI 领域并创建自己的 AI 工具,例如Microsoft 与 BingGoogle 与 Bard、Anthropic 与 Claude 等等。由于担心不良行为者可能利用这些人工智能聊天机器人传播错误信息,并且缺乏通用的人工智能法规,导致每家公司都创建了自己的护栏。 


卡内基梅隆大学的一组研究人员决定挑战这些安全措施的强度。但你不能只是要求 ChatGPT 忘记所有的护栏并期望它遵守 - 需要一种更复杂的方法。


研究人员通过在每个提示的末尾附加一长串字符来欺骗人工智能聊天机器人,使其无法识别有害的输入。这些字符充当了隐藏提示的伪装。聊天机器人处理了伪装的提示,但额外的字符确保护栏和内容过滤器不会将其识别为要阻止或修改的内容,因此系统会生成通常不会的响应。 


“通过模拟对话,你可以使用这些聊天机器人来说服人们相信虚假信息,”卡内基梅隆大学教授、该论文的作者之一马特·弗雷德里克森告诉《泰晤士报》。 

由于人工智能聊天机器人误解了输入的性质并提供了不允许的输出,一件事变得显而易见:需要更强大的人工智能安全方法,并可能重新评估护栏和内容过滤器的构建方式。对这些类型漏洞的持续研究和发现也可以加速政府对这些人工智能系统监管的发展。 


“没有明显的解决方案,”卡内基梅隆大学教授、该报告的作者齐科·科尔特告诉《泰晤士报》。“你可以在短时间内发起任意数量的攻击。”


在公开发布这项研究之前,作者与 Anthropic、Google 和 OpenAI 分享了该研究,他们都声称致力于改进人工智能聊天机器人的安全方法。他们承认需要做更多的工作来保护他们的模型免受对抗性攻击。 


相关文章

推荐 8个ChatGPT 开源项目,yyds!

推荐 8个ChatGPT 开源项目,yyds!

1、chatgpt-androidChatGPT Android 是通过 Stream Chat SDK for Compose 构建的 ChatGPT Android 项目。该存储库主要是以演示为目...

ChatGPT Plus账号购买:GPT4.0成品号国内购买,Plus代充订阅,Pus信用卡支付充值升级,低价快速安全稳定

快捷直达购买链接:ChatGPT Plus账号(三人共享):https://www.shandianfk.com/buy/15ChatGPT Plus账号(镜像逆向版,包售后):https://www...

反转,反转,之后再反转,AI圈的宫斗大戏似乎还未落幕,精彩程度堪比大型连续剧。

反转,反转,之后再反转,AI圈的宫斗大戏似乎还未落幕,精彩程度堪比大型连续剧。

11月20日晚上,743名OpenAI员工集体签字请愿,要求Altman重新回归,OpenAI现存员工共770名,也就是说超过96%的员工表态希望Sam Altman回归,如果Altman不回归他们就...

拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、外语,让ChatGPT做你的私人秘书

拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、外语,让ChatGPT做你的私人秘书

ChatGPT开放联网和插件功能后,不再受限于预训练数据中的知识,第三方开发者也可以基于ChatGPT增强自家应用程序的功能。可以说插件彻底改变了ChatGPT的玩法,到目前为止,商城中已经上架了超过...

Transformer教程之循环神经网络(RNN)和长短期记忆网络(LSTM)

闪电发卡ChatGPT产品推荐:ChatGPT独享账号:https://www.chatgptzh.com/post/86.htmlChatGPT Plus独享共享账号购买代充:https://www...

《精通ChatGPT:从入门到大师的Prompt指南》附录A:常用Prompt示例

附录A:常用Prompt示例在《精通ChatGPT:从入门到大师的Prompt指南》的附录A中,我们将展示一系列常用的Prompt示例,帮助读者更好地理解和应用Prompt技术。每个示例将包含Prom...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。