Microsoft annonce plusieurs nouvelles fonctionnalités dans Azure AI, notamment l'avatar de synthèse vocale

Icône de temps de lecture 3 minute. lis

Icône de calendrier Publié le 15 novembre 2023

publié sur 15 novembre 2023

Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens.

Les services Azure AI permettent aux développeurs de créer des applications d’IA avec des API et des modèles prêts à l’emploi, prédéfinis et personnalisables. Les services Azure AI incluent le service Vision, le service Speech, le service Traducteur et plus encore. Lors d'Ignite 2023, Microsoft a annoncé aujourd'hui plusieurs nouvelles fonctionnalités d'Azure AI, notamment un avatar de synthèse vocale, une voix neuronale personnelle, un nouveau mode de traduction automatique amélioré et bien plus encore. Retrouvez les détails ci-dessous.

Une nouvelle optimisation des tâches capacité de synthèse dans Azure AI Language, optimisé par de grands modèles de langage (GPT-3.5-Turbo, GPT-4, Z-Code++ et plus).
Une nouvelle modèle de traduction automatique capable de traduire d'une langue à une autre sans traduire en anglais comme intermédiaire. De plus, il peut être personnalisé à l'aide des données clients pour mieux aligner les traductions sur le contexte du secteur.
Reconnaissance des entités nommées, la traduction et la synthèse de documents dans des conteneurs permettront aux agences gouvernementales et aux secteurs, tels que les services financiers et les soins de santé, ayant des exigences strictes en matière de résidence des données, d'exécuter des services d'IA sur leur propre infrastructure.
Voix personnelle, une nouvelle fonctionnalité de voix neuronale personnalisée qui permettra aux entreprises de créer des voix neuronales personnalisées avec 60 secondes d'échantillons audio pour leurs utilisateurs. La voix personnelle est une fonctionnalité d'accès limité.
Avatar de synthèse vocale, une nouvelle fonctionnalité de synthèse vocale qui générera un fac-similé réaliste d'une personne parlant sur la base du texte saisi et des données vidéo d'une personne réelle parlant. Les avatars prédéfinis et personnalisés sont désormais en aperçu, cependant, l'avatar personnalisé est une fonctionnalité à accès limité.

Le service Azure AI Vision reçoit les mises à jour suivantes :

Fonctionnalité de vivacité ainsi que les SDK Vision : La fonctionnalité Liveness aidera à prévenir les attaques d'usurpation d'identité par reconnaissance faciale et est conforme à la norme ISO 30107-3 PAD niveau 2. Vision SDK for Face permettra aux développeurs d'ajouter facilement la reconnaissance faciale et la vivacité aux applications mobiles. Les deux fonctionnalités sont en avant-première.
Analyse d'images 4.0 : Cette API introduit des modèles d'analyse d'images de pointe, englobant le sous-titrage d'images, l'OCR, la détection d'objets et bien plus encore, le tout accessible via un point de terminaison d'API unique et synchrone. Notamment, le modèle OCR amélioré offre une précision améliorée pour le texte tapé et manuscrit dans les images. Analyse d'images 4.0 est généralement disponible.
Modèle de fondation Florence : Formée avec des milliards de paires texte-image et intégrée en tant que services de vision par ordinateur rentables et prêts pour la production dans Azure AI Vision, cette fonctionnalité améliorée permet aux développeurs de créer des applications de vision par ordinateur de pointe, prêtes à être commercialisées et responsables dans divers secteurs. Modèle de fondation Florence est généralement disponible.

Enfin, les nouvelles mises à jour d’Azure AI Services rendront le processus d’extraction d’informations à partir de vidéos plus facile que jamais. Vous pouvez désormais utiliser Azure AI pour obtenir un résumé textuel d’un contenu vidéo. Vous pouvez également rechercher maintenant des sujets, des moments ou des détails spécifiques dans des vidéos détaillées utilisant un langage naturel. Retrouvez les détails ci-dessous.

Résumé vidéo en texte: Les utilisateurs pourront extraire l'essence du contenu vidéo et générer des résumés textuels concis et informatifs. L'algorithme avancé segmente les vidéos en chapitres cohérents, en tirant parti des indices visuels, audio et textuels pour créer des sections qui s'intègrent facilement dans les fenêtres d'invite du grand modèle de langage (LLM). Chaque section contient un contenu essentiel, notamment des transcriptions, des événements audio et des éléments visuels. C’est idéal pour créer des récapitulatifs vidéo, du matériel de formation ou le partage de connaissances.
Recherche efficace de contenu vidéo : Les utilisateurs pourront transformer le contenu vidéo en un format consultable à l'aide des informations de LLM et de Video Indexer. En convertissant les informations vidéo en invites conviviales LLM, les principaux points forts sont accessibles pour une recherche efficace. La segmentation des scènes, les événements audio et les détails visuels améliorent encore la division du contenu, permettant aux utilisateurs de localiser rapidement des sujets, des moments ou des détails spécifiques dans des vidéos étendues.

En savoir plus sur les sujets : IA Azure, microsoft, avatar de synthèse vocale

Pradeep Viswav

Expert en logiciels et services

Pradeep est diplômé en informatique et en ingénierie. Il était également partenaire étudiant Microsoft. Il travaille actuellement dans une entreprise informatique leader.

Soyez sympa! Laissez un commentaire