VALL-E de Microsoft copie les voix et les émotions des orateurs originaux pour synthétiser des discours personnalisés

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale Plus d'informations

Le nouveau modèle de langage VALL-E de Microsoft est un outil d'intelligence artificielle intéressant qui peut copier les voix humaines et même les émotions et les tonalités qu'elles contiennent. Il n'a besoin que d'un enregistrement de trois secondes pour être utilisé comme invite acoustique, mais peut délivrer un message différent en utilisant la voix de l'orateur d'origine. (AIThèmes via fenêtres Central)

Microsoft investit beaucoup dans l'IA. Outre la technologie ChatGPT AI d'OpenAI (qui sera intégrée à Bing et d'autres Applications Office), il dispose également de l'outil VALL-E récemment publié. Il s'agit d'un modèle linguistique formé sur 60,000 XNUMX heures de données vocales en anglais. Grâce à cette technologie, une personne peut synthétiser un discours personnalisé en utilisant la voix d'un locuteur différent.

Dans une expérience détaillée dans un article (L'Université Cornell), VALL-E a été testé et a donné des résultats favorables.

"Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS à la pointe de la technologie en termes de naturel de la parole et de similitude des locuteurs", indique le document. "De plus, nous constatons que VALL-E pourrait préserver l'émotion de l'orateur et l'environnement acoustique de l'invite acoustique en synthèse."

Dans certains des échantillons partagés, les discours synthétisés à l'aide d'invites acoustiques sonnent presque sans faille. VALL-E a réussi à copier les mêmes tons et émotions des haut-parleurs d'origine et les a même utilisés pour prononcer un discours personnalisé très différent. Par exemple, il a pu produire des enregistrements de la même phrase ("Il faut réduire le nombre de sacs plastiques“) livré dans différentes humeurs ou tonalités, telles que la colère, la somnolence, la neutralité, l'amusement et le dégoût.

Malgré ces performances exceptionnelles, Microsoft prévoit probablement d'autres améliorations de VALL-E à l'avenir pour l'aider à fournir des performances plus impeccables. Et bien qu'elle puisse être utile pour divers scénarios de cas, la technologie peut également être dangereuse entre les mains des mauvaises personnes. Heureusement, il n'est actuellement pas disponible au public, ce qui pourrait donner à la société de Redmond plus de temps pour réfléchir à comment et où elle proposera cette technologie.

Quelle est votre opinion à ce sujet ? Faites-nous savoir dans la section des commentaires. 

Forum des utilisateurs

Messages 0