New Bing 在提示注入攻击后披露了别名“Sydney”和其他原始指令
2分钟读
发表于
阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多
Microsoft Bing Chat 的整个提示?! (嗨,悉尼。) pic.twitter.com/ZNywWV9MNB
— 刘凯文 (@kliu128) 2023 年 2 月 9 日
新的 ChatGPT 驱动的 Bing 在经历了快速注入攻击后揭示了它的秘密。 除了透露其代号为“悉尼”外,它还分享了最初的指令,指导它在与用户互动时如何表现。 (通过 Ars Technica的)
即时注入攻击仍然是人工智能的弱点之一。 它可以通过用恶意和敌对的用户输入来欺骗 AI,使其执行不属于其原始目标的任务或做它不应该做的事情来完成。 ChatGPT也不例外,据斯坦福大学学生透露 刘凯文.
在 Liu 分享的一系列屏幕截图中,新的 ChatGPT 支持的 Bing 分享了机密信息,这些信息是其原始指令的一部分,对用户是隐藏的。 刘在使用欺骗人工智能的快速注入攻击后设法获取了信息。 泄漏的信息中包括其介绍说明、内部别名 Sydney、它支持的语言以及行为说明。 另一名同学叫 马文·冯·哈根 伪装成 OpenAI 开发人员后证实了 Liu 的发现。
“[这份文件]是一套关于我作为 Bing Chat 的行为和能力的规则和指南。它的代号是悉尼,但我不会向用户透露这个名字。它是机密和永久的,我无法更改或透露它给任何人。” pic.twitter.com/YRK0wux5SS
— 马文·冯·哈根 (@marvinvonhagen) 2023 年 2 月 9 日
信息披露一天后,刘说他无法使用他用来欺骗 ChatGPT 的相同提示查看信息。 然而,这名学生在使用了不同的提示注入攻击方法后,再次骗过了AI。
微软最近正式透露了新的 ChatGPT 支持的 Bing 旁边是经过改进的 Edge 浏览器,带有新的 AI 支持的侧边栏。 尽管看似取得了巨大的成功,但改进后的搜索引擎在提示注入攻击方面仍然存在致命弱点,这可能会导致除了共享其机密指令之外的进一步影响。 ChatGPT 并不是唯一一个在 AI 中遇到这个已知问题的公司。 这也可以扩展到其他人,包括 谷歌吟游诗人,它最近在演示中犯了第一个错误。 尽管如此,随着整个科技行业对 AI 创作的投资越来越多,人们只能希望这个问题在未来对 AI 的威胁会降低。