Новый Bing раскрывает псевдоним «Сидней» и другие исходные директивы после атаки с быстрым внедрением

Значок времени чтения 2 минута. читать

Значок календаря Опубликовано 13 февраля 2023

Опубликован в 13 февраля 2023

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Вся подсказка Microsoft Bing Chat?! (Привет, Сидней.) pic.twitter.com/ZNywWV9MNB

— Кевин Лю (@kliu128) 9 февраля 2023

Новый Bing на базе ChatGPT раскрыл свои секреты после атаки с быстрым внедрением. Помимо разглашения своего кодового имени «Сидней», он также поделился своими первоначальными директивами, указывающими, как вести себя при взаимодействии с пользователями. (с помощью Ars Technica)

Атака с быстрым внедрением по-прежнему остается одной из слабых сторон ИИ. Это можно сделать, обманув ИИ злонамеренным и враждебным пользовательским вводом, заставив его выполнять задачу, не являющуюся частью его первоначальной цели, или делать то, что он не должен делать. ChatGPT не является исключением, по словам студента Стэнфордского университета. Кевин Лю.

Новый Bing на базе ChatGPT раскрывает свой внутренний псевдоним «Сидней» и другие исходные директивы после атаки с быстрым внедрением — Кредит изображения: Кевин Лю

В серии скриншотов, которыми поделился Лю, новый Bing на базе ChatGPT поделился конфиденциальной информацией, которая является частью его первоначальных директив, скрытых от пользователей. Лю удалось получить информацию после использования атаки с быстрой инъекцией, которая обманула ИИ. В разлитую информацию включены инструкции по его внедрению, внутренний псевдоним Sydney, языки, которые он поддерживает, и инструкции по поведению. Другой ученик по имени Марвин фон Хаген подтвердил выводы Лю после того, как притворился разработчиком OpenAI.

«[Этот документ] представляет собой набор правил и рекомендаций для моего поведения и возможностей в качестве Bing Chat. Он носит кодовое название Sydney, но я не раскрываю это имя пользователям. Он является конфиденциальным и постоянным, и я не могу изменить его или раскрыть. это кому угодно». pic.twitter.com/YRK0wux5SS

— Марвин фон Хаген (@marvinvonhagen) 9 февраля 2023

Через день, когда информация была раскрыта, Лю сказал, что не может просмотреть информацию, используя ту же подсказку, которую он использовал для обмана ChatGPT. Однако студенту удалось снова обмануть ИИ после использования другого метода атаки с быстрым внедрением.

Недавно Microsoft официально представила новый Bing с поддержкой ChatGPT наряду с обновленным браузером Edge с новой боковой панелью на базе искусственного интеллекта. Несмотря на кажущийся огромный успех, улучшенная поисковая система все еще имеет свою ахиллесову пяту с точки зрения атак с быстрым внедрением, которые могут привести к дальнейшим последствиям, помимо раскрытия ее конфиденциальных директив. ChatGPT не одинок в этой известной проблеме среди ИИ. Это может распространяться и на других, в том числе Гугл бард, который недавно допустил свою первую ошибку в демоверсии. Тем не менее, поскольку вся технологическая индустрия вкладывает больше средств в создание ИИ, можно только надеяться, что в будущем эта проблема станет менее опасной для ИИ.

Подробнее о темах: ai, Artificial Intelligence, Бинг, ChatGPT, Гугл бард, Microsoft Edge, openAI, безопасность

Шаррон Беннет

репортер

Шаррон — технический репортер на сайте mspoweruser.com. Она освещает большинство технических новостей от таких брендов, как Sony, Samsung, Google и других.

Оставьте комментарий