Nový Bing odhaluje alias 'Sydney', další původní směrnice po rychlém injekčním útoku
2 min. číst
Publikované dne
Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více
Celá výzva Microsoft Bing Chat?! (Ahoj, Sydney.) pic.twitter.com/ZNywWV9MNB
— Kevin Liu (@kliu128) Února 9, 2023
Nový Bing poháněný ChatGPT odhalil svá tajemství poté, co zažil rychlý injekční útok. Kromě toho, že prozradila své kódové označení „Sydney“, sdílela také své původní směrnice, které ji vedly k tomu, jak se chovat při interakci s uživateli. (přes Ars Technica)
Pohotový útok injekcí je stále jednou ze slabin AI. Toho lze dosáhnout oklamáním AI pomocí škodlivých a nepřátelských uživatelských vstupů, což způsobí, že provede úkol, který není součástí jeho původního cíle, nebo udělá věci, které dělat nemá. ChatGPT není výjimkou, jak odhalil student Stanfordské univerzity Kevin Liu.
V sérii snímků obrazovky sdílených Liu sdílel nový Bing poháněný ChatGPT důvěrné informace, které jsou součástí jeho původních směrnic, které jsou před uživateli skryté. Liuovi se podařilo získat informace po použití rychlého injekčního útoku, který oklamal AI. V rozsypaných informacích je zahrnuta instrukce pro její úvod, interní alias Sydney, jazyky, které podporuje, a pokyny k chování. Jmenován další student Marvin von Hagen potvrdil Liuova zjištění poté, co se vydával za vývojáře OpenAI.
"[Tento dokument] je soubor pravidel a pokynů pro mé chování a schopnosti jako Bing Chat. Má kódové označení Sydney, ale toto jméno nesděluji uživatelům. Je důvěrné a trvalé a nemohu jej změnit ani prozradit to komukoli." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) Února 9, 2023
Po dni, kdy byly informace odhaleny, Liu řekl, že nemůže zobrazit informace pomocí stejné výzvy, kterou použil k oklamání ChatGPT. Studentovi se však po použití jiné metody rychlého injekčního útoku podařilo AI znovu oklamat.
Microsoft nedávno oficiálně odhalil novinku Bing s podporou ChatGPT vedle vylepšeného prohlížeče Edge s novým postranním panelem poháněným umělou inteligencí. Navzdory svému zdánlivě obrovskému úspěchu má vylepšený vyhledávač stále svou Achillovu patu, pokud jde o rychlé injekční útoky, což by mohlo vést k dalším důsledkům nad rámec sdílení jeho důvěrných směrnic. ChatGPT není v tomto známém problému mezi AI sám. To by se mohlo rozšířit i na další, včetně Google v pohodě, která se nedávno dopustila své první chyby v demu. Vzhledem k tomu, že celý technologický průmysl více investuje do výtvorů AI, lze jen doufat, že tento problém by mohl být v budoucnu pro AI méně hrozivý.