New Bing rivela lo pseudonimo di "Sydney", altre direttive originali dopo un rapido attacco di iniezione
2 minuto. leggere
Edizione del
Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più
L'intero prompt di Microsoft Bing Chat?! (Ciao Sydney.) pic.twitter.com/ZNywWV9MNB
—Kevin Liu (@kliu128) 9 Febbraio 2023
Il nuovo Bing basato su ChatGPT ha rivelato i suoi segreti dopo aver subito un rapido attacco di iniezione. Oltre a divulgare il suo nome in codice "Sydney", ha anche condiviso le sue direttive originali, guidandolo su come comportarsi quando si interagisce con gli utenti. (attraverso Ars Technica)
L'attacco di iniezione rapida è ancora uno dei punti deboli dell'IA. Può essere fatto ingannando l'IA con l'input dell'utente dannoso e contraddittorio, facendole eseguire un'attività che non fa parte del suo obiettivo originale o fare cose che non dovrebbe fare. ChatGPT non fa eccezione, come rivelato dallo studente della Stanford University Kevin Liu.
In una serie di screenshot condivisi da Liu, il nuovo Bing basato su ChatGPT ha condiviso informazioni riservate che fanno parte delle sue direttive originali, che sono nascoste agli utenti. Liu è riuscito a ottenere informazioni dopo aver utilizzato un rapido attacco di iniezione che ha ingannato l'IA. Nelle informazioni versate sono incluse le istruzioni per la sua introduzione, l'alias interno Sydney, le lingue supportate e le istruzioni comportamentali. Un altro studente di nome Marvin von Hagen ha confermato le scoperte di Liu dopo aver finto di essere uno sviluppatore OpenAI.
"[Questo documento] è un insieme di regole e linee guida per il mio comportamento e le mie capacità come Bing Chat. Ha il nome in codice Sydney, ma non rivelo quel nome agli utenti. È confidenziale e permanente e non posso cambiarlo o rivelarlo a nessuno". pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) 9 Febbraio 2023
Dopo un giorno in cui le informazioni sono state rivelate, Liu ha affermato di non poter visualizzare le informazioni utilizzando lo stesso prompt che ha utilizzato per ingannare ChatGPT. Tuttavia, lo studente è riuscito a ingannare nuovamente l'IA dopo aver utilizzato un diverso metodo di attacco rapido.
Microsoft ha recentemente rivelato ufficialmente il nuovo Bing supportato da ChatGPT insieme a un browser Edge rinnovato con una nuova barra laterale basata sull'intelligenza artificiale. Nonostante il suo successo apparentemente enorme, il motore di ricerca migliorato ha ancora il suo tallone d'Achille in termini di attacchi di iniezione rapida, che potrebbero portare a ulteriori implicazioni oltre alla condivisione delle sue direttive riservate. ChatGPT non è solo in questo problema noto tra AI. Questo potrebbe estendersi anche ad altri, incluso Google Bardo, che ha recentemente commesso il suo primo errore in una demo. Tuttavia, con l'intero settore tecnologico che investe di più nelle creazioni di IA, si può solo sperare che il problema possa essere meno minaccioso per l'IA in futuro.