Microsoft annoncerer flere nye funktioner i Azure AI, herunder tekst-til-tale-avatar

Ikon for læsetid 3 min. Læs

Kalenderikon Udgivet den November 15, 2023

offentliggjort den November 15, 2023

Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links.

Azure AI-tjenester giver udviklere mulighed for at skabe AI-applikationer med klar og færdigbyggede og tilpasselige API'er og modeller. Azure AI-tjenester inkluderer Vision-tjeneste, taletjeneste, oversættertjeneste og mere. På Ignite 2023 annoncerede Microsoft i dag flere nye funktioner i Azure AI, herunder tekst-til-tale-avatar, personlig neural stemme, ny forbedret maskinoversættelsestilstand og mere. Find detaljerne nedenfor.

En ny opgaveoptimering opsummeringsevne i Azure AI Language, drevet af store sprogmodeller (GPT-3.5-Turbo, GPT-4, Z-Code++ og mere).
En ny maskinoversættelsesmodel i stand til at oversætte fra et sprog til et andet uden at oversætte til engelsk som mellemmand. Derudover kan den tilpasses ved hjælp af kundedata for bedre at tilpasse oversættelser til branchens kontekst.
Navngivet enhedsgenkendelse, vil dokumentoversættelse og opsummering i containere gøre det muligt for offentlige myndigheder og industrier, såsom finansielle tjenester og sundhedspleje, med strenge krav til dataophold til at køre AI-tjenester på deres egen infrastruktur.
Personlig stemme, en ny brugerdefineret neural stemmefunktion, der vil gøre det muligt for virksomheder at skabe brugerdefinerede neurale stemmer med 60 sekunders lydprøver til deres brugere. Personlig stemme er en funktion med begrænset adgang.
Tekst-til-tale-avatar, en ny tekst-til-tale-funktion, der vil generere en realistisk faksimile af en person, der taler, baseret på inputtekst og videodata fra en rigtig person, der taler. Både forudbyggede og brugerdefinerede avatarer er nu i forhåndsvisning, men brugerdefinerede avatarer er en funktion med begrænset adgang.

Azure AI Vision-tjenesten får følgende opdateringer:

Liveness funktionalitet , Vision SDK: Liveness-funktionalitet vil hjælpe med at forhindre ansigtsgenkendelse spoofing-angreb og overholder ISO 30107-3 PAD Level 2. Vision SDK for Face vil gøre det muligt for udviklere nemt at tilføje ansigtsgenkendelse og livlighed til mobilapplikationer. Begge funktioner er i preview.
Billedanalyse 4.0: Denne API introducerer banebrydende billedanalysemodeller, der omfatter billedtekstning, OCR, objektdetektering og mere, alt sammen tilgængeligt via et enkelt, synkront API-slutpunkt. Især kan den forbedrede OCR-model prale af forbedret nøjagtighed for både skrevet og håndskrevet tekst i billeder. Billedanalyse 4.0 er generelt tilgængelig.
Florence foundation model: Uddannet med milliarder af tekst-billede-par og integreret som omkostningseffektive, produktionsklare computervision-tjenester i Azure AI Vision, gør denne forbedrede funktion det muligt for udviklere at skabe banebrydende, markedsklare, ansvarlige computervision-applikationer på tværs af forskellige industrier. Florence fundament model er generelt tilgængelig.

Endelig vil de nye opdateringer i Azure AI Services gøre processen med at udtrække indsigt fra videoer nemmere end nogensinde. Du kan nu bruge Azure AI til at få et tekstresumé af et videoindhold. Du kan også søge nu søge efter specifikke emner, øjeblikke eller detaljer i omfattende videoer med naturligt sprog. Find detaljerne nedenfor.

Video-til-tekst oversigt: Brugere vil være i stand til at udtrække essensen af videoindhold og generere kortfattede og informative tekstresuméer. Den avancerede algoritme segmenterer videoer i sammenhængende kapitler, og udnytter visuelle, lyd- og tekstsignaler til at skabe sektioner, der nemt kan rummes i store sprogmodeller (LLM) promptvinduer. Hvert afsnit indeholder væsentligt indhold, herunder transskriptioner, lydbegivenheder og visuelle elementer. Dette er ideelt til at lave videorecaps, træningsmaterialer eller vidensdeling.
Effektiv videoindholdssøgning: Brugere vil være i stand til at transformere videoindhold til et søgbart format ved hjælp af LLM'er og Video Indexers indsigt. Ved at konvertere videoindsigt til LLM-venlige prompter er de vigtigste højdepunkter tilgængelige for effektiv søgning. Scenesegmentering, lydbegivenheder og visuelle detaljer forbedrer indholdsopdelingen yderligere, hvilket giver brugerne mulighed for hurtigt at lokalisere specifikke emner, øjeblikke eller detaljer i omfattende videoer.

Mere om emnerne: Azure AI, microsoft, tekst-til-tale avatar

Pradeep Viswav

Software- og serviceekspert

Pradeep er uddannet datalogi og ingeniør. Han var også Microsoft Student Partner. Han arbejder i øjeblikket i en førende it-virksomhed.

Giv en kommentar