Novi Bing razkriva vzdevek "Sydney," druge izvirne direktive po napadu s takojšnjim vbrizgavanjem
2 min. prebrati
Objavljeno dne
Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več
Celoten poziv za Microsoft Bing Chat?! (Živjo, Sydney.) pic.twitter.com/ZNywWV9MNB
— Kevin Liu (@kliu128) Februar 9, 2023
Novi Bing, ki ga poganja ChatGPT, je razkril svoje skrivnosti, potem ko je bil deležen hitrega napada z vbrizgavanjem. Poleg razkritja svojega kodnega imena kot "Sydney", je delil tudi svoje izvirne smernice, ki so ga vodile, kako se obnašati pri interakciji z uporabniki. (prek Ars Technica)
Napad s takojšnjim vbrizgavanjem je še vedno ena od slabosti AI. To je mogoče storiti tako, da umetno inteligenco pretentajo z zlonamernimi in nasprotnimi uporabniškimi vnosi, zaradi česar ta izvede nalogo, ki ni del njegovega prvotnega cilja, ali naredi stvari, ki jih ne bi smel početi. ChatGPT pri tem ni izjema, kot je razkril študent univerze Stanford Kevin Liu.
V nizu posnetkov zaslona, ki jih je delil Liu, je novi Bing, ki ga poganja ChatGPT, delil zaupne informacije, ki so del njegovih izvirnih navodil, ki so skrite pred uporabniki. Liu je uspel pridobiti informacije po uporabi hitrega napada z vbrizgavanjem, ki je preslepil AI. Med razlite informacije so vključena navodila za njegovo uvedbo, notranji vzdevek Sydney, jeziki, ki jih podpira, in vedenjska navodila. Ime drugega študenta Marvin von Hagen je potrdil Liujeve ugotovitve, potem ko se je pretvarjal, da je razvijalec OpenAI.
»[Ta dokument] je nabor pravil in smernic za moje vedenje in zmožnosti kot Bing Chat. Ima kodno ime Sydney, vendar tega imena ne razkrivam uporabnikom. Je zaupen in trajen in ga ne morem spremeniti ali razkriti komurkoli." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) Februar 9, 2023
Po enem dnevu, ko so bile informacije razkrite, je Liu rekel, da si informacij ne more ogledati z istim pozivom, ki ga je uporabil za prevaro ChatGPT. Vendar je študentu uspelo znova preslepiti AI, potem ko je uporabil drugačno metodo napada s takojšnjim vbrizgavanjem.
Microsoft je nedavno uradno razkril novost Bing, ki podpira ChatGPT skupaj s prenovljenim brskalnikom Edge z novo stransko vrstico, ki jo poganja AI. Kljub navidezno velikemu uspehu ima izboljšani iskalnik še vedno svojo Ahilovo peto v smislu hitrih napadov z vbrizgavanjem, kar bi lahko povzročilo dodatne posledice, ki presegajo deljenje njegovih zaupnih navodil. ChatGPT ni sam v tej znani težavi med AI. To bi se lahko razširilo tudi na druge, vključno z googlov bard, ki je nedavno zagrešil svojo prvo napako v predstavitvi. Ne glede na to, ker celotna tehnološka industrija vlaga več v stvaritve AI, lahko samo upamo, da bo težava v prihodnosti manj grozeča za AI.