Microsoft Azure AI dezvăluie „Prompt Shields” pentru a combate manipularea LLM

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Afla mai multe

Microsoft Azure AI Prompt Shield

Microsoft astăzi a anunțat o îmbunătățire majoră a securității pentru platformele sale Azure OpenAI Service și Azure AI Content Safety. Denumită „Prompt Shields”, noua caracteristică oferă o apărare robustă împotriva atacurilor din ce în ce mai sofisticate care vizează modele de limbaj mari (LLM).

Prompt Shields protejează împotriva:

  • Atacurile directe: Cunoscute și sub denumirea de atacuri de jailbreak, aceste încercări indică în mod explicit LLM să ignore protocoalele de siguranță sau să efectueze acțiuni rău intenționate.
  • Atacurile indirecte: Aceste atacuri încorporează subtil instrucțiuni dăunătoare în text aparent normal, cu scopul de a păcăli LLM în comportament nedorit.

Prompt Shields este integrat cu filtrele de conținut Azure OpenAI Service și sunt disponibile în Azure AI Content Safety. Datorită algoritmilor avansati de învățare automată și procesării limbajului natural, Prompt Shields poate identifica și neutraliza potențialele amenințări din solicitările utilizatorilor și din datele terțelor părți.

Spotlighting: O Novel Defense Technique

Microsoft a introdus, de asemenea, „Spotlighting”, o abordare de inginerie promptă specializată, concepută pentru a contracara atacurile indirecte. Tehnicile de evidențiere, cum ar fi delimitarea și marcarea datelor, ajută LLM-urile să facă distincția clară între instrucțiunile legitime și comenzile încorporate potențial dăunătoare.

Disponibilitate

Prompt Shields este în prezent în previzualizare publică ca parte a Azure AI Content Safety și va fi disponibil în cadrul Azure OpenAI Service pe 1 aprilie. Integrarea în Azure AI Studio este planificată în viitorul apropiat.

Forumul utilizatorilor

0 mesaje