Microsoft tillkännager Phi-3-vision, en ny multimodal SLM för AI-scenarier på enheten

Hem » Nyheter

1 min. läsa

Uppdaterad den Maj 23, 2024

by Pradeep Viswav

uppdateras Maj 23, 2024

Dela den här artikeln

Förbättra den här guiden

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Viktiga anteckningar

Phi-3-vision är en 4.2B parametermodell som stöder allmänna visuella resonemangsuppgifter och diagram/graf/tabellresonemang

På Build 2024, Microsoft idag expanderade dess Phi-3-familj av små AI-modeller med den nya Phi-3-visionen. Phi-3-vision är en 4.2B parametermodell som stöder allmänna visuella resonemangsuppgifter och diagram/graf/tabellresonemang. Modellen kan ta både bilder och text som input, och mata ut textsvar.

Microsoft tillkännagav idag också den allmänna tillgängligheten av Phi-3-mini i Azure AI:s Models-as-a Service (MaaS)-erbjudande. Phi-3 modeller tar fart eftersom de är kostnadseffektiva och optimerade för on-device, edge, offline inferens och latensbundna AI-scenarier.

Utöver nyheterna om Phi-3-modeller tillkännagav Microsoft nya funktioner över API:er för att möjliggöra multimodala upplevelser. Azure AI Speech har nu talanalys och universell översättning. Azure AI Search kommer nu med avsevärt utökad lagring och upp till 12X ökning av vektorindexstorlek utan extra kostnad för att möjliggöra stora RAG-arbetsbelastningar i stor skala.