VALL-E de Microsoft copia las voces y emociones de los hablantes originales para sintetizar discursos personalizados

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

El nuevo modelo de lenguaje de Microsoft VALL-E es una interesante herramienta de inteligencia artificial que puede copiar voces humanas e incluso las emociones y tonos en ellas. Solo necesita una grabación de tres segundos para usarse como aviso acústico, pero puede transmitir un mensaje diferente utilizando la voz del hablante original. (AITemas vía ventanas centrales)

Microsoft está invirtiendo mucho en IA. Además de la tecnología ChatGPT AI de OpenAI (que se integrará en Bing así como de otros Aplicaciones de Office), también cuenta con la herramienta VALL-E recientemente lanzada. Es un modelo de lenguaje entrenado en 60,000 horas de datos de habla en inglés. A través de esta tecnología, una persona puede sintetizar un discurso personalizado utilizando la voz de un hablante diferente.

En un experimento detallado en un artículo (Cornell University), VALL-E fue probado y condujo a resultados favorables.

“Los resultados de los experimentos muestran que VALL-E supera significativamente al sistema TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante”, se lee en el documento. “Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje acústico en síntesis”.

en algunos de los cualquier compartidos, los discursos sintetizados mediante indicaciones acústicas suenan casi impecables. VALL-E logró copiar los mismos tonos y emociones de los oradores originales e incluso los usó para dar un discurso personalizado muy diferente. Por ejemplo, pudo producir grabaciones de la misma oración ("Tenemos que reducir el número de bolsas de plástico.“) entregados en diferentes estados de ánimo o tonos, como enojo, somnolencia, neutralidad, diversión y disgusto.

A pesar de este rendimiento excepcional, es probable que Microsoft tenga planes adicionales para mejorar VALL-E más en el futuro para ayudarlo a brindar un rendimiento más impecable. Y si bien puede ser útil para varios escenarios de casos, la tecnología también puede ser peligrosa en manos de personas equivocadas. Afortunadamente, actualmente no está disponible para el público, lo que podría darle a la compañía de Redmond más tiempo para pensar cómo y dónde ofrecerá esta tecnología.

¿Cuál es tu opinión sobre esto? Háganos saber en la sección de comentarios. 

Más sobre los temas: Inteligencia artificial , VALLE-E

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *