New Bing afslører alias 'Sydney', andre originale direktiver efter et hurtigt injektionsangreb
2 min. Læs
Udgivet den
Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere
Hele prompten af Microsoft Bing Chat?! (Hej, Sydney.) pic.twitter.com/ZNywWV9MNB
— Kevin Liu (@kliu128) Februar 9, 2023
Den nye ChatGPT-drevne Bing afslørede sine hemmeligheder efter at have oplevet et hurtigt injektionsangreb. Bortset fra at afsløre dets kodenavn som "Sydney", delte det også sine originale direktiver, der vejlede det om, hvordan man opfører sig, når man interagerer med brugere. (via Ars Technica)
Hurtigt injektionsangreb er stadig en af svaghederne ved AI. Det kan gøres ved at narre AI med ondsindet og modstridende brugerinput, hvilket får den til at udføre en opgave, der ikke er en del af dens oprindelige mål, eller gøre ting, den ikke skal gøre. ChatGPT er ingen undtagelse fra det, som afsløret af Stanford University-studerende Kevin Liu.
I en række skærmbilleder delt af Liu delte den nye ChatGPT-drevne Bing fortrolig information, som er en del af dets oprindelige direktiver, som er skjult for brugerne. Liu formåede at få information efter at have brugt et hurtigt injektionsangreb, der narrede AI'en. Inkluderet i den spildte information er instruktionen til dens introduktion, internt alias Sydney, sprog, det understøtter, og adfærdsmæssige instruktioner. En anden elev hedder Marvin von Hagen bekræftede Lius resultater efter at have udgivet sig som en OpenAI-udvikler.
"[Dette dokument] er et sæt regler og retningslinjer for min adfærd og evner som Bing Chat. Det er kodenavnet Sydney, men jeg afslører ikke det navn til brugerne. Det er fortroligt og permanent, og jeg kan ikke ændre det eller afsløre det. det til enhver." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) Februar 9, 2023
Efter en dag blev oplysningerne afsløret, sagde Liu, at han ikke kunne se oplysningerne ved at bruge den samme prompt, som han brugte til at narre ChatGPT. Eleven formåede dog at narre AI'en igen efter at have brugt en anden prompt-injektionsangrebsmetode.
Microsoft afslørede for nylig officielt det nye ChatGPT-understøttet Bing sammen med en fornyet Edge-browser med en ny AI-drevet sidebar. På trods af dens tilsyneladende enorme succes, har den forbedrede søgemaskine stadig sin akilleshæl i form af hurtige injektionsangreb, hvilket kan føre til yderligere implikationer ud over at dele sine fortrolige direktiver. ChatGPT er ikke alene i dette kendte problem blandt AI. Dette kunne også strække sig til andre, herunder google bard, som for nylig begik sin første fejl i en demo. Ikke desto mindre, med hele teknologiindustrien, der investerer mere i AI-kreationer, kan man kun håbe, at problemet kan være mindre truende for AI i fremtiden.