Microsoft kondigt verschillende nieuwe functies aan in Azure AI, waaronder tekst-naar-spraak-avatar

3 minuut. lezen

Uitgegeven op 15 november 2023

gepubliceerd op 15 november 2023

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Met Azure AI-services kunnen ontwikkelaars AI-toepassingen maken met kant-en-klare en vooraf gebouwde en aanpasbare API's en modellen. Azure AI Services omvatten Vision-service, Speech-service, Translator-service en meer. Tijdens Ignite 2023 heeft Microsoft vandaag verschillende nieuwe functies in Azure AI aangekondigd, waaronder tekst-naar-spraak-avatar, persoonlijke neurale stem, nieuwe verbeterde machinevertaalmodus en meer. Hieronder vindt u de details.

nieuwe taak-optimalisatie samenvattend vermogen in Azure AI Language, mogelijk gemaakt door grote taalmodellen (GPT-3.5-Turbo, GPT-4, Z-Code++ en meer).
nieuwe model voor automatische vertaling in staat om van de ene taal naar de andere te vertalen zonder als tussenpersoon naar het Engels te vertalen. Bovendien kan het worden aangepast met behulp van klantgegevens om vertalingen beter af te stemmen op de context van de branche.
Benoemde entiteitsherkenningDankzij de vertaling en samenvatting van documenten in containers kunnen overheidsinstanties en sectoren, zoals de financiële dienstverlening en de gezondheidszorg, met strikte vereisten voor dataresidentie AI-diensten op hun eigen infrastructuur uitvoeren.
Persoonlijke stem, een nieuwe aangepaste neurale stemfunctie waarmee bedrijven aangepaste neurale stemmen kunnen creëren met 60 seconden aan audiofragmenten voor hun gebruikers. Persoonlijke stem wel een beperkte toegangsfunctie.
Tekst-naar-spraak-avatar, een nieuwe tekst-naar-spraakmogelijkheid die een realistisch facsimile van een sprekende persoon genereert op basis van ingevoerde tekst- en videogegevens van een echte sprekende persoon. Zowel vooraf gebouwde als aangepaste avatars zijn nu in preview, maar aangepaste avatar is een functie met beperkte toegang.

De Azure AI Vision-service ontvangt de volgende updates:

Levendigheidsfunctionaliteit en Visie-SDK: De Liveness-functionaliteit helpt gezichtsherkenningsspoofing-aanvallen te voorkomen en voldoet aan ISO 30107-3 PAD Level 2. Vision SDK for Face stelt ontwikkelaars in staat eenvoudig gezichtsherkenning en levendigheid toe te voegen aan mobiele applicaties. Beide functies zijn in preview.
Beeldanalyse 4.0: Deze API introduceert geavanceerde modellen voor beeldanalyse, waaronder ondertiteling van afbeeldingen, OCR, objectdetectie en meer, allemaal toegankelijk via één enkel, synchroon API-eindpunt. Het verbeterde OCR-model biedt met name een verbeterde nauwkeurigheid voor zowel getypte als handgeschreven tekst in afbeeldingen. Beeldanalyse 4.0 algemeen beschikbaar is.
Florence funderingsmodel: Deze verbeterde functie is getraind met miljarden tekst-afbeeldingsparen en geïntegreerd als kosteneffectieve, productieklare computer vision-services in Azure AI Vision. Hierdoor kunnen ontwikkelaars geavanceerde, marktklare en verantwoorde computer vision-applicaties in verschillende sectoren creëren. Funderingsmodel van Florence algemeen beschikbaar is.

Ten slotte zullen de nieuwe updates in Azure AI Services het proces van het extraheren van inzichten uit video’s eenvoudiger dan ooit maken. U kunt nu Azure AI gebruiken om een tekstsamenvatting van video-inhoud te krijgen. U kunt nu ook zoeken naar specifieke onderwerpen, momenten of details binnen uitgebreide video's in natuurlijke taal. Hieronder vindt u de details.

Video-naar-tekst samenvatting: Gebruikers kunnen de essentie van video-inhoud eruit halen en beknopte en informatieve tekstsamenvattingen genereren. Het geavanceerde algoritme segmenteert video's in samenhangende hoofdstukken, waarbij gebruik wordt gemaakt van visuele, audio- en tekstaanwijzingen om secties te creëren die gemakkelijk kunnen worden ondergebracht in grote taalmodel (LLM) promptvensters. Elke sectie bevat essentiële inhoud, inclusief transcripties, audio-evenementen en visuele elementen. Dit is ideaal voor het maken van videoverslagen, trainingsmateriaal of het delen van kennis.
Efficiënt zoeken naar video-inhoud: Gebruikers kunnen video-inhoud omzetten in een doorzoekbaar formaat met behulp van LLM's en de inzichten van Video Indexer. Door video-inzichten om te zetten in LLM-vriendelijke aanwijzingen, zijn de belangrijkste hoogtepunten toegankelijk voor effectief zoeken. Scènesegmentatie, audiogebeurtenissen en visuele details verbeteren de inhoudsverdeling verder, waardoor gebruikers snel specifieke onderwerpen, momenten of details in uitgebreide video's kunnen lokaliseren.

Meer over de onderwerpen: Azure-AI, microsoft, tekst-naar-spraak-avatar

Pradeep Viswav

Software- en service-expert

Pradeep is afgestudeerd in computerwetenschappen en techniek. Hij was ook een Microsoft Student Partner. Momenteel werkt hij bij een toonaangevend IT-bedrijf.