Microsoft tillkännager flera nya funktioner i Azure AI inklusive text-till-tal-avatar

3 min. läsa

Publicerad den November 15, 2023

publicerad den November 15, 2023

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Azure AI-tjänster tillåter utvecklare att skapa AI-applikationer med färdiga och förbyggda och anpassningsbara API:er och modeller. Azure AI Services inkluderar Vision-tjänsten, Taltjänsten, Översättartjänsten och mer. På Ignite 2023 tillkännagav Microsoft idag flera nya funktioner i Azure AI, inklusive text-till-tal-avatar, personlig neural röst, nytt förbättrat maskinöversättningsläge och mer. Hitta detaljerna nedan.

En ny uppgiftsoptimering sammanfattningsförmåga i Azure AI Language, som drivs av stora språkmodeller (GPT-3.5-Turbo, GPT-4, Z-Code++ och mer).
En ny maskinöversättningsmodell kan översätta från ett språk till ett annat utan att översätta till engelska som mellanhand. Dessutom kan den anpassas med hjälp av kunddata för att bättre anpassa översättningar till branschens kontext.
Namngivet enhet erkännande, dokumentöversättning och sammanfattning i behållare kommer att tillåta statliga myndigheter och industrier, såsom finansiella tjänster och hälsovård, med strikta krav på datauppehållstillstånd att köra AI-tjänster på sin egen infrastruktur.
Personlig röst, en ny anpassad neurala röstfunktion som gör det möjligt för företag att skapa anpassade neurala röster med 60 sekunders ljudprov för sina användare. Personlig röst är en funktion med begränsad åtkomst.
Text-till-tal-avatar, en ny text-till-tal-funktion som kommer att generera en realistisk faksimil av en person som talar baserat på inmatad text och videodata från en verklig person som talar. Både förbyggda och anpassade avatarer är nu i förhandsgranskning, men anpassad avatar är en funktion med begränsad åtkomst.

Azure AI Vision-tjänsten får följande uppdateringar:

Liveness funktionalitet och Vision SDK: Liveness-funktionalitet hjälper till att förhindra ansiktsigenkänning-spoofing-attacker och överensstämmer med ISO 30107-3 PAD Level 2. Vision SDK for Face kommer att göra det möjligt för utvecklare att enkelt lägga till ansiktsigenkänning och livlighet till mobila applikationer. Båda funktionerna är i förhandsvisning.
Bildanalys 4.0: Detta API introducerar banbrytande bildanalysmodeller, som omfattar bildtextning, OCR, objektdetektering och mer, allt tillgängligt via en enda, synkron API-slutpunkt. Noterbart är att den förbättrade OCR-modellen har förbättrad noggrannhet för både maskinskriven och handskriven text i bilder. Bildanalys 4.0 är allmänt tillgänglig.
Florence foundation modell: Utbildad med miljarder text-bildpar och integrerad som kostnadseffektiva, produktionsklara datorvisionstjänster i Azure AI Vision, gör denna förbättrade funktion det möjligt för utvecklare att skapa banbrytande, marknadsförberedda, ansvarsfulla datorseendeapplikationer inom olika branscher. Florens grundmodell är allmänt tillgänglig.

Slutligen kommer de nya uppdateringarna i Azure AI Services att göra processen att extrahera insikter från videor enklare än någonsin. Du kan nu använda Azure AI för att få en textsammanfattning av ett videoinnehåll. Du kan också söka nu söka efter specifika ämnen, ögonblick eller detaljer i omfattande videor med naturligt språk. Hitta detaljerna nedan.

Sammanfattning av video till text: Användare kommer att kunna extrahera essensen av videoinnehåll och generera kortfattade och informativa textsammanfattningar. Den avancerade algoritmen delar upp videor i sammanhängande kapitel och utnyttjar visuella, ljud- och textsignaler för att skapa sektioner som lätt kan hanteras i snabbfönster med stora språkmodeller (LLM). Varje avsnitt innehåller väsentligt innehåll, inklusive transkriptioner, ljudhändelser och visuella element. Detta är idealiskt för att skapa videorecaps, utbildningsmaterial eller kunskapsdelning.
Effektiv videoinnehållssökning: Användare kommer att kunna omvandla videoinnehåll till ett sökbart format med hjälp av LLMs och Video Indexers insikter. Genom att konvertera videoinsikter till LLM-vänliga uppmaningar är de viktigaste höjdpunkterna tillgängliga för effektiv sökning. Scensegmentering, ljudhändelser och visuella detaljer förbättrar innehållsuppdelningen ytterligare, vilket gör att användare snabbt kan hitta specifika ämnen, ögonblick eller detaljer i omfattande videor.

Mer om ämnena: Azure AI, microsoft, text-till-tal-avatar