Microsoft Azure AI avduker 'Prompt Shields' for å bekjempe LLM-manipulasjon
2 min. lese
Publisert på
Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer
Microsoft i dag annonsert en stor sikkerhetsforbedring for plattformene Azure OpenAI Service og Azure AI Content Safety. Den nye funksjonen, kalt «Prompt Shields», tilbyr robust forsvar mot stadig mer sofistikerte angrep rettet mot store språkmodeller (LLM).
Prompt Shields beskytter mot:
- Direkte angrep: Også kjent som jailbreak-angrep, instruerer disse forsøkene eksplisitt LLM til å se bort fra sikkerhetsprotokoller eller utføre ondsinnede handlinger.
- Indirekte angrep: Disse angrepene legger subtilt inn skadelige instruksjoner i tilsynelatende normal tekst, med sikte på å lure LLM til uønsket oppførsel.
Prompt Shields er integrert med Azure OpenAI Service-innholdsfiltre og er tilgjengelig i Azure AI Content Safety. Takket være avanserte maskinlæringsalgoritmer og naturlig språkbehandling, kan Prompt Shields identifisere og nøytralisere potensielle trusler i brukermeldinger og tredjepartsdata.
Spotlighting: A Novel Defense Technique
Microsoft introduserte også "Spotlighting", en spesialisert, rask ingeniørtilnærming designet for å hindre indirekte angrep. Spotlighting-teknikker, som avgrensing og datamerking, hjelper LLM-er å skille klart mellom legitime instruksjoner og potensielt skadelige innebygde kommandoer.
Tilgjengelighet
Prompt Shields er for øyeblikket i offentlig forhåndsvisning som en del av Azure AI Content Safety og vil være tilgjengelig i Azure OpenAI-tjenesten 1. april. Integrasjon i Azure AI Studio er planlagt i nær fremtid.