Microsoft kunngjør flere nye funksjoner i Azure AI, inkludert tekst-til-tale-avatar

Ikon for lesetid 3 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Microsoft Azure AI Voice

Azure AI-tjenester lar utviklere lage AI-applikasjoner med ut-av-boksen og forhåndsbygde og tilpassbare APIer og modeller. Azure AI Services inkluderer Vision-tjeneste, taletjeneste, oversettertjeneste og mer. På Ignite 2023 kunngjorde Microsoft i dag flere nye funksjoner i Azure AI, inkludert tekst-til-tale-avatar, personlig nevrale stemme, ny forbedret maskinoversettelsesmodus og mer. Finn detaljene nedenfor.

  • En ny oppgaveoptimalisering oppsummeringsevne i Azure AI Language, drevet av store språkmodeller (GPT-3.5-Turbo, GPT-4, Z-Code++ og mer).
  • En ny maskinoversettelsesmodell i stand til å oversette fra ett språk til et annet uten å oversette til engelsk som en mellommann. I tillegg kan den tilpasses ved hjelp av kundedata for bedre å tilpasse oversettelser til bransjens kontekst.
  • Navngitt enhetsgjenkjenning, dokumentoversettelse og oppsummering i containere vil tillate offentlige etater og bransjer, som finansielle tjenester og helsetjenester, med strenge krav til dataopphold for å kjøre AI-tjenester på sin egen infrastruktur.
  • Personlig stemme, en ny tilpasset nevrale stemmefunksjon som vil gjøre det mulig for bedrifter å lage tilpassede nevrale stemmer med 60 sekunders lydprøver for brukerne sine. Personlig stemme er en funksjon med begrenset tilgang
  • Tekst-til-tale-avatar, en ny tekst-til-tale-funksjon som vil generere en realistisk faksimile av en person som snakker basert på inndatatekst og videodata fra en virkelig person som snakker. Både forhåndsbygde og tilpassede avatarer er nå i forhåndsvisning, men tilpasset avatar er en funksjon med begrenset tilgang. 

Azure AI Vision-tjenesten får følgende oppdateringer:

  • Liveness-funksjonalitet og Visjon SDK: Liveness-funksjonalitet vil bidra til å forhindre ansiktsgjenkjenningsforfalskningsangrep og samsvarer med ISO 30107-3 PAD nivå 2. Vision SDK for Face vil gjøre det mulig for utviklere å enkelt legge til ansiktsgjenkjenning og livlighet til mobilapplikasjoner. Begge funksjonene er i forhåndsvisning. 
  • Bildeanalyse 4.0: Denne API-en introduserer banebrytende bildeanalysemodeller, som omfatter bildeteksting, OCR, objektdeteksjon og mer, alt tilgjengelig gjennom et enkelt, synkront API-endepunkt. Spesielt kan den forbedrede OCR-modellen skryte av forbedret nøyaktighet for både maskinskrevet og håndskrevet tekst i bilder. Bildeanalyse 4.0 er generelt tilgjengelig. 
  • Florence foundation modell: Opplært med milliarder av tekst-bilde-par og integrert som kostnadseffektive, produksjonsklare datasynstjenester i Azure AI Vision, gjør denne forbedrede funksjonen utviklere i stand til å lage banebrytende, markedsklare, ansvarlige datasynsapplikasjoner på tvers av ulike bransjer. Florence foundation modell er generelt tilgjengelig.

Til slutt vil de nye oppdateringene i Azure AI Services gjøre prosessen med å trekke ut innsikt fra videoer enklere enn noen gang. Du kan nå bruke Azure AI for å få et tekstsammendrag av et videoinnhold. Du kan også søke nå søke etter spesifikke emner, øyeblikk eller detaljer i omfattende videoer med naturlig språk. Finn detaljene nedenfor.

  • Video-til-tekst-sammendrag: Brukere vil kunne trekke ut essensen av videoinnhold og generere konsise og informative tekstsammendrag. Den avanserte algoritmen segmenterer videoer i sammenhengende kapitler, og utnytter visuelle, lyd- og tekstsignaler for å lage seksjoner som enkelt kan tilpasses i store språkmodeller (LLM) ledetekstvinduer. Hver seksjon inneholder viktig innhold, inkludert transkripsjoner, lydhendelser og visuelle elementer. Dette er ideelt for å lage videorecaps, opplæringsmateriell eller kunnskapsdeling.
  • Effektivt videoinnholdssøk: Brukere vil kunne transformere videoinnhold til et søkbart format ved å bruke LLMs og Video Indexers innsikt. Ved å konvertere videoinnsikt til LLM-vennlige forespørsler, er hovedhøydepunktene tilgjengelige for effektivt søk. Scenesegmentering, lydhendelser og visuelle detaljer forbedrer innholdsdelingen ytterligere, slik at brukere raskt kan finne spesifikke emner, øyeblikk eller detaljer i omfattende videoer.

Mer om temaene: Azure AI, microsoft, tekst-til-tale-avatar