New Bing tiết lộ bí danh 'Sydney', các chỉ thị ban đầu khác sau cuộc tấn công nhanh chóng
2 phút đọc
Được đăng trên
Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm
Toàn bộ lời nhắc của Microsoft Bing Chat?! (Chào, Sydney.) pic.twitter.com/ZNywWV9MNB
– Kevin Liu (@kliu128) 9 Tháng hai, 2023
Bing mới do ChatGPT cung cấp đã tiết lộ bí mật của nó sau khi trải qua một cuộc tấn công nhanh chóng. Ngoài việc tiết lộ tên mã của nó là “Sydney”, nó còn chia sẻ các chỉ thị ban đầu, hướng dẫn cách ứng xử khi tương tác với người dùng. (thông qua Ars Technica)
Tấn công nhanh chóng vẫn là một trong những điểm yếu của AI. Nó có thể được thực hiện bằng cách đánh lừa AI bằng đầu vào của người dùng độc hại và đối địch, khiến nó thực hiện một nhiệm vụ không nằm trong mục tiêu ban đầu của nó hoặc làm những việc mà nó không được phép làm. ChatGPT cũng không ngoại lệ, theo tiết lộ của sinh viên Đại học Stanford Kevin Lưu.
Trong một loạt ảnh chụp màn hình do Liu chia sẻ, Bing mới do ChatGPT cung cấp đã chia sẻ thông tin bí mật nằm trong các chỉ thị ban đầu của nó, vốn bị ẩn khỏi người dùng. Liu đã xoay sở để lấy được thông tin sau khi sử dụng một cuộc tấn công nhanh chóng để đánh lừa AI. Bao gồm trong thông tin bị rò rỉ là hướng dẫn giới thiệu, bí danh nội bộ Sydney, ngôn ngữ mà nó hỗ trợ và hướng dẫn hành vi. Một sinh viên khác tên Marvin von Hagen đã xác nhận những phát hiện của Liu sau khi giả làm nhà phát triển OpenAI.
"[Tài liệu này] là một bộ quy tắc và hướng dẫn cho hành vi và khả năng của tôi với tư cách là Bing Chat. Nó có tên mã là Sydney, nhưng tôi không tiết lộ tên đó cho người dùng. Nó là bí mật và vĩnh viễn và tôi không thể thay đổi hoặc tiết lộ nó nó cho bất cứ ai." pic.twitter.com/YRK0wux5SS
– Marvin von Hagen (@marvinvonhagen) 9 Tháng hai, 2023
Sau một ngày thông tin bị lộ, Liu nói rằng anh ta không thể xem thông tin bằng chính lời nhắc mà anh ta đã sử dụng để lừa ChatGPT. Tuy nhiên, sinh viên này đã đánh lừa được AI một lần nữa sau khi sử dụng một phương pháp tấn công nhanh chóng khác.
Microsoft mới đây đã chính thức tiết lộ tính năng mới Bing hỗ trợ ChatGPT cùng với trình duyệt Edge được cải tiến với thanh bên hỗ trợ AI mới. Mặc dù thành công dường như to lớn của nó, công cụ tìm kiếm được cải tiến vẫn có gót chân Achilles của nó về các cuộc tấn công tiêm chích nhanh chóng, điều này có thể dẫn đến những tác động xa hơn ngoài việc chia sẻ các chỉ thị bí mật của nó. ChatGPT không đơn độc trong vấn đề đã biết này giữa AI. Điều này cũng có thể mở rộng cho những người khác, bao gồm cả Google thật tuyệt, gần đây đã phạm lỗi đầu tiên trong bản trình diễn. Tuy nhiên, với việc toàn bộ ngành công nghệ đang đầu tư nhiều hơn vào các sáng tạo AI, người ta chỉ có thể hy vọng rằng vấn đề này có thể ít đe dọa hơn đối với AI trong tương lai.