Microsoft annoncerer Phi-3-vision, en ny multimodal SLM til AI-scenarier på enheden

Ikon for læsetid 1 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • Phi-3-vision er en 4.2B parametermodel, der understøtter generelle visuelle ræsonnement opgaver og diagram/graf/tabel ræsonnement

Hos Build 2024, Microsoft i dag udvidet dens Phi-3-familie af AI små sprogmodeller med den nye Phi-3-vision. Phi-3-vision er en 4.2B parametermodel, der understøtter generelle visuelle ræsonnementopgaver og diagram/graf/tabel-ræsonnement. Modellen kan tage både billeder og tekst som input og output tekstsvar.

Microsoft annoncerede i dag også den generelle tilgængelighed af Phi-3-mini i Azure AI's Models-as-a Service (MaaS)-tilbud. Phi-3 modeller tager fart, da de er omkostningseffektive og optimeret til on-device, edge, offline inferens og latensbundne AI-scenarier.

Ud over nyhederne om Phi-3-modeller annoncerede Microsoft nye funktioner på tværs af API'er for at muliggøre multimodale oplevelser. Azure AI Speech har nu taleanalyse og universel oversættelse. Azure AI Search kommer nu med markant øget lagerplads og op til 12X stigning i vektorindeksstørrelse uden ekstra omkostninger for at muliggøre store RAG-arbejdsbelastninger i stor skala.

Brugerforum

0 meddelelser