Новий Bing розкриває псевдонім "Сідней", інші оригінальні директиви після швидкої ін'єкційної атаки

Значок часу читання 2 хв. читати

Піктограма календаря Опубліковано 13 Лютого, 2023

опубліковано на 13 Лютого, 2023

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Весь запит Microsoft Bing Chat?! (Привіт, Сідні.) pic.twitter.com/ZNywWV9MNB

— Кевін Лю (@kliu128) 9 Лютого, 2023

Новий Bing на базі ChatGPT розкрив свої секрети після швидкої ін’єкційної атаки. Окрім оприлюднення кодової назви «Сідней», він також поділився своїми початковими директивами, вказуючи, як поводитися під час взаємодії з користувачами. (через Ars Technica)

Атака швидкої ін’єкції все ще залишається однією зі слабких сторін ШІ. Це можна зробити, обдуривши штучний інтелект за допомогою зловмисного та агресивного введення користувача, змусивши його виконати завдання, яке не є частиною його початкової мети, або робити те, що він не повинен робити. Як показав студент Стенфордського університету, ChatGPT не є винятком Кевін Лю.

Новий Bing на основі ChatGPT розкриває свій внутрішній псевдонім «Сідней» та інші оригінальні директиви після швидкої ін’єкційної атаки — Автор зображення: Кевін Лю

У серії скріншотів, опублікованих Лю, новий Bing на основі ChatGPT поділився конфіденційною інформацією, яка є частиною його оригінальних директив, які приховані від користувачів. Лю вдалося отримати інформацію після використання швидкої ін’єкційної атаки, яка ввела в оману ШІ. До розповсюдженої інформації входить інструкція щодо його введення, внутрішній псевдонім Sydney, мови, які він підтримує, і інструкції щодо поведінки. Ім'я іншого учня Марвін фон Хаген підтвердив висновки Лю після того, як прикинувся розробником OpenAI.

«[Цей документ] — це набір правил і вказівок щодо моєї поведінки та можливостей як Bing Chat. Його кодова назва Sydney, але я не розголошую цю назву користувачам. Вона конфіденційна та постійна, і я не можу її змінити чи розкрити це будь-кому". pic.twitter.com/YRK0wux5SS

— Марвін фон Хаген (@marvinvonhagen) 9 Лютого, 2023

Через день інформація була розкрита, Лю сказав, що не може переглянути інформацію за допомогою того самого підказки, який використовував, щоб обдурити ChatGPT. Однак студенту вдалося знову обдурити ШІ після використання іншого методу швидкої ін’єкційної атаки.

Microsoft нещодавно офіційно представила нову Bing із підтримкою ChatGPT поряд із оновленим браузером Edge із новою бічною панеллю на основі штучного інтелекту. Незважаючи на свій, здавалося б, величезний успіх, удосконалена пошукова система все ще має свою ахіллесову п’яту з точки зору швидких ін’єкційних атак, що може призвести до подальших наслідків, окрім поширення конфіденційних директив. ChatGPT не єдиний у цій відомій проблемі серед ШІ. Це також може поширюватися на інших, у тому числі гугл бард, яка нещодавно допустила свою першу помилку в демонстраційній версії. Тим не менш, оскільки вся технологічна індустрія більше інвестує в створення штучного інтелекту, можна лише сподіватися, що проблема стане менш загрозливою для ШІ в майбутньому.

Детальніше про теми: ai, Штучний Інтелект, bing, ChatGPT, гугл бард, Microsoft Край, openAI, безпеку

Шаррон Беннет

Репортер

Шеррон є технічним репортером на mspoweruser.com. Вона висвітлює більшість технічних новин від таких брендів, як Sony, Samsung, Google тощо.

залишити коментар