Nový Bing odhaľuje alias „Sydney“, ďalšie pôvodné smernice po rýchlom injekčnom útoku
2 min. čítať
Publikované dňa
Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac
Celá výzva Microsoft Bing Chat?! (Ahoj, Sydney.) pic.twitter.com/ZNywWV9MNB
— Kevin Liu (@kliu128) Februára 9, 2023
Nový Bing poháňaný ChatGPT odhalil svoje tajomstvá po tom, čo zažil rýchly injekčný útok. Okrem zverejnenia svojho kódového názvu „Sydney“ zdieľal aj svoje pôvodné smernice, ktoré ho usmerňovali, ako sa správať pri interakcii s používateľmi. (cez Ars Technica)
Pohotový útok injekciou je stále jednou zo slabín AI. Dá sa to urobiť oklamaním AI so zlomyseľným a nepriateľským vstupom používateľa, čo spôsobí, že vykoná úlohu, ktorá nie je súčasťou jej pôvodného cieľa, alebo urobí veci, ktoré robiť nemá. ChatGPT nie je výnimkou, ako prezradil študent Stanfordskej univerzity Kevin Liu.
V sérii snímok obrazovky zdieľaných Liu zdieľal nový Bing s podporou ChatGPT dôverné informácie, ktoré sú súčasťou jeho pôvodných smerníc, ktoré sú pred používateľmi skryté. Liuovi sa podarilo získať informácie po použití rýchleho injekčného útoku, ktorý oklamal AI. V rozsypaných informáciách sú zahrnuté pokyny na ich uvedenie, interný alias Sydney, jazyky, ktoré podporuje, a pokyny na správanie. Menovaný ďalší študent Marvin von Hagen potvrdil Liuove zistenia po tom, čo sa vydával za vývojára OpenAI.
"[Tento dokument] je súbor pravidiel a pokynov pre moje správanie a schopnosti ako Bing Chat. Má kódové označenie Sydney, ale toto meno neprezradím používateľom. Je dôverné a trvalé a nemôžem ho zmeniť ani odhaliť to komukoľvek." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) Februára 9, 2023
Po dni, keď boli informácie odhalené, Liu povedal, že nemôže zobraziť informácie pomocou rovnakej výzvy, ktorú použil na oklamanie ChatGPT. Študentovi sa však podarilo opäť oklamať AI po použití inej metódy rýchleho injekčného útoku.
Microsoft nedávno oficiálne predstavil novinku Bing s podporou ChatGPT spolu s prepracovaným prehliadačom Edge s novým bočným panelom poháňaným AI. Napriek svojmu zdanlivo obrovskému úspechu má vylepšený vyhľadávací nástroj stále svoju Achillovu pätu, pokiaľ ide o rýchle injekčné útoky, čo by mohlo viesť k ďalším dôsledkom nad rámec zdieľania jeho dôverných smerníc. ChatGPT nie je v tomto známom probléme medzi AI sám. To by sa mohlo rozšíriť aj na iných, napr google bard, ktorá sa nedávno dopustila svojej prvej chyby v ukážke. Napriek tomu, keďže celý technologický priemysel viac investuje do výtvorov AI, môžeme len dúfať, že tento problém by mohol byť pre AI v budúcnosti menej hrozivý.