New Bing 在提示注入攻擊後披露了別名“Sydney”和其他原始指令
2分鐘讀
發表於
請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多
Microsoft Bing Chat 的整個提示?! (嗨,悉尼。) pic.twitter.com/ZNywWV9MNB
— 劉凱文 (@kliu128) 2023 年 2 月 9 日
新的 ChatGPT 驅動的 Bing 在經歷了快速注入攻擊後揭示了它的秘密。 除了透露其代號為“悉尼”外,它還分享了最初的指令,指導它在與用戶互動時如何表現。 (通過 Ars Technica的)
即時注入攻擊仍然是人工智能的弱點之一。 它可以通過用惡意和敵對的用戶輸入來欺騙 AI,使其執行不屬於其原始目標的任務或做它不應該做的事情來完成。 ChatGPT也不例外,據斯坦福大學學生透露 劉凱文.
在 Liu 分享的一系列屏幕截圖中,新的 ChatGPT 驅動的 Bing 分享了機密信息,這些信息是其原始指令的一部分,對用戶是隱藏的。 劉在使用欺騙人工智能的快速注入攻擊後設法獲取了信息。 洩漏的信息中包括其介紹說明、內部別名 Sydney、它支持的語言以及行為說明。 另一名同學叫 馬文·馮·哈根 偽裝成 OpenAI 開發人員後證實了 Liu 的發現。
“[這份文件]是一套關於我作為 Bing Chat 的行為和能力的規則和指南。它的代號是 Sydney,但我不會向用戶透露這個名字。它是機密和永久的,我無法更改或透露它給任何人。” pic.twitter.com/YRK0wux5SS
— 馬文·馮·哈根 (@marvinvonhagen) 2023 年 2 月 9 日
信息披露一天后,劉說他無法使用他用來欺騙 ChatGPT 的相同提示查看信息。 然而,這名學生在使用了不同的提示注入攻擊方法後,再次騙過了AI。
微軟最近正式透露了新的 ChatGPT 支持的 Bing 旁邊是經過改進的 Edge 瀏覽器,帶有新的 AI 支持的側邊欄。 儘管看起來取得了巨大的成功,但改進後的搜索引擎在提示注入攻擊方面仍然存在致命弱點,這可能會導致除了共享其機密指令之外的進一步影響。 ChatGPT 並不是唯一一個在 AI 中遇到這個已知問題的公司。 這也可以擴展到其他人,包括 谷歌吟遊詩人,它最近在演示中犯了第一個錯誤。 儘管如此,隨著整個科技行業對 AI 創作的投資越來越多,人們只能希望這個問題在未來對 AI 的威脅會降低。