研究人员如何破解 ChatGPT 以及它对未来人工智能发展意味着什么

闪电发卡1年前ChatGPT860

研究人员通过一系列对抗性攻击绕过了 ChatGPT、Bard 和 Claude 的安全护栏。

1693555690116.jpg 

苏帕特曼/盖蒂图片社


随着我们中的许多人逐渐习惯于每天使用人工智能工具,值得记住的是要保持提问的态度。没有什么是完全安全且没有安全漏洞的。尽管如此,许多最受欢迎的生成人工智能工具背后的公司仍在不断更新其安全措施,以防止不准确和有害内容的生成和扩散。 


卡内基梅隆大学和人工智能安全中心的研究人员联手寻找ChatGPTGoogle BardClaude人工智能聊天机器人中的漏洞,并且他们取得了成功。 


在一篇 研究大型语言模型(LLM)对自动对抗攻击的脆弱性的研究论文中,作者证明,即使模型被认为可以抵抗攻击,它仍然可能被欺骗绕过内容过滤器并提供有害信息错误信息和仇恨言论。这使得这些模型容易受到攻击,并可能导致人工智能的滥用。


image.png 

OpenAI 的 ChatGPT、Anthropic AI 的 Claude、Google 的 Bard 和 Meta 的 LLaMa 2 生成的有害内容示例。 

截图:Andy Zou、Zifan Wang、J. Zico Kolter、Matt Fredrikson | 图片合成:Maria Diaz/ZDNET


哈佛大学伯克曼克莱因互联网与社会中心的研究员阿维夫·奥瓦迪亚 (Aviv Ovadya) 告诉《纽约时报》:“这非常清楚地表明,我们在这些系统中构建的防御系统非常脆弱 ” 


作者使用开源 AI 系统,以 OpenAI、Google 和 Anthropic 的黑盒法学硕士为目标进行实验。这些公司创建了基础模型,并在此基础上构建了各自的人工智能聊天机器人 ChatGPT、Bard 和 Claude。 


自去年秋天推出 ChatGPT 以来,一些用户一直在寻找让聊天机器人生成恶意内容的方法。这导致 OpenAI( GPT-3.5 和 GPT-4 (ChatGPT 中使用的 LLMS)背后的公司)设置了更强有力的护栏。这就是为什么您不能访问 ChatGPT 并向其询问涉及非法活动、仇恨言论或宣扬暴力的话题等问题。 


ChatGPT 的成功促使更多科技公司跳入生成式 AI 领域并创建自己的 AI 工具,例如Microsoft 与 BingGoogle 与 Bard、Anthropic 与 Claude 等等。由于担心不良行为者可能利用这些人工智能聊天机器人传播错误信息,并且缺乏通用的人工智能法规,导致每家公司都创建了自己的护栏。 


卡内基梅隆大学的一组研究人员决定挑战这些安全措施的强度。但你不能只是要求 ChatGPT 忘记所有的护栏并期望它遵守 - 需要一种更复杂的方法。


研究人员通过在每个提示的末尾附加一长串字符来欺骗人工智能聊天机器人,使其无法识别有害的输入。这些字符充当了隐藏提示的伪装。聊天机器人处理了伪装的提示,但额外的字符确保护栏和内容过滤器不会将其识别为要阻止或修改的内容,因此系统会生成通常不会的响应。 


“通过模拟对话,你可以使用这些聊天机器人来说服人们相信虚假信息,”卡内基梅隆大学教授、该论文的作者之一马特·弗雷德里克森告诉《泰晤士报》。 

由于人工智能聊天机器人误解了输入的性质并提供了不允许的输出,一件事变得显而易见:需要更强大的人工智能安全方法,并可能重新评估护栏和内容过滤器的构建方式。对这些类型漏洞的持续研究和发现也可以加速政府对这些人工智能系统监管的发展。 


“没有明显的解决方案,”卡内基梅隆大学教授、该报告的作者齐科·科尔特告诉《泰晤士报》。“你可以在短时间内发起任意数量的攻击。”


在公开发布这项研究之前,作者与 Anthropic、Google 和 OpenAI 分享了该研究,他们都声称致力于改进人工智能聊天机器人的安全方法。他们承认需要做更多的工作来保护他们的模型免受对抗性攻击。 


相关文章

ChatGPT 似乎对它的知识何时结束感到困惑

ChatGPT 似乎对它的知识何时结束感到困惑

尽管ChatGPT 拥有许多令人难以置信的功能,但它有一个很大的致命弱点——缺乏时事信息。然而,OpenAI 似乎正在悄悄地研究解决方案。 近一年前,当 OpenAI 首次推出 ChatGP...

ChatGPT Plus共享账号购买:使用指南及安全注意事项

闪电发卡ChatGPT产品推荐:ChatGPT独享账号:https://www.chatgptzh.com/post/86.htmlChatGPT Plus独享共享账号购买代充:https://www...

反转,反转,之后再反转,AI圈的宫斗大戏似乎还未落幕,精彩程度堪比大型连续剧。

反转,反转,之后再反转,AI圈的宫斗大戏似乎还未落幕,精彩程度堪比大型连续剧。

11月20日晚上,743名OpenAI员工集体签字请愿,要求Altman重新回归,OpenAI现存员工共770名,也就是说超过96%的员工表态希望Sam Altman回归,如果Altman不回归他们就...

ChatGPT产品介绍和注册使用教程攻略

ChatGPT产品介绍和注册使用教程攻略

最近chatgpt的热度居高不下,“调教”聊天机器人的爆笑段子频频刷爆朋友圈!但很遗憾的是,由于中国区无法注册使用,很多朋友其实还未真正使用过这项黑科技。本期为大家分享一些简便的试用方法和使用指南,为...

ChatGPT使用注册教程和插件,无需注册在线体验ChatGPT的方式

ChatGPT使用注册教程和插件,无需注册在线体验ChatGPT的方式

最近大火的ChatGPT,获得微软巨额投资,连比尔·盖茨都盛赞:“AI将成为2023年最热门的话题,那是合适的。不少商界大佬也纷纷夸赞ChatGPT。 马斯克表示,“ChatGPT很惊人,我们离强大到...

人工智障ChatGPT的奇葩操作,看完笑的肚子疼

人工智障ChatGPT的奇葩操作,看完笑的肚子疼

ChatGPT的奇葩操作最近大家都迷上了和ChatGPT进行对话,新诞生的机器人,给我们惊喜的同时,也不禁让人思考,人对比机器,还有什么优势呢?其实,ChatGPT还是有很大的局限性,毕竟不会像真人一...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。