Microsoft anuncia varias características nuevas en Azure AI, incluido el avatar de texto a voz

Icono de tiempo de lectura 3 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Voz de IA de Microsoft Azure

Los servicios de Azure AI permiten a los desarrolladores crear aplicaciones de IA con API y modelos listos para usar, prediseñados y personalizables. Los servicios de Azure AI incluyen el servicio de visión, el servicio de voz, el servicio de traducción y más. En Ignite 2023, Microsoft anunció hoy varias características nuevas en Azure AI, incluido un avatar de texto a voz, voz neuronal personal, un nuevo modo de traducción automática mejorado y más. Encuentre los detalles a continuación.

  • Una nueva encuesta  optimización de tareas capacidad de resumen en Azure AI Language, impulsado por grandes modelos de lenguaje (GPT-3.5-Turbo, GPT-4, Z-Code++ y más).
  • Una nueva encuesta  modelo de traducción automática capaz de traducir de un idioma a otro sin necesidad de traducir en inglés como intermediario. Además, se puede personalizar utilizando los datos del cliente para alinear mejor las traducciones con el contexto de la industria.
  • Reconocimiento de entidad nombrada, la traducción y el resumen de documentos en contenedores permitirán a las agencias e industrias gubernamentales, como las de servicios financieros y de atención médica, con estrictos requisitos de residencia de datos, ejecutar servicios de inteligencia artificial en su propia infraestructura.
  • Voz personal, una nueva función de voz neuronal personalizada que permitirá a las empresas crear voces neuronales personalizadas con 60 segundos de muestras de audio para sus usuarios. La voz personal es una función de acceso limitado
  • Avatar de texto a voz, una nueva capacidad de conversión de texto a voz que generará un facsímil realista de una persona hablando basándose en texto ingresado y datos de video de una persona real hablando. Tanto los avatares prediseñados como los personalizados están ahora en versión preliminar; sin embargo, el avatar personalizado es una función de acceso limitado. 

El servicio Azure AI Vision recibirá las siguientes actualizaciones:

  • Funcionalidad de vida y SDK de visión: La funcionalidad Liveness ayudará a prevenir ataques de suplantación de reconocimiento facial y cumple con ISO 30107-3 PAD Nivel 2. Vision SDK para Face permitirá a los desarrolladores agregar fácilmente reconocimiento facial y Liveness a las aplicaciones móviles. Ambas funciones están en versión preliminar. 
  • Análisis de imagen 4.0: Esta API presenta modelos de análisis de imágenes de vanguardia, que abarcan subtítulos de imágenes, OCR, detección de objetos y más, todos accesibles a través de un único punto final API sincrónico. En particular, el modelo OCR mejorado cuenta con una precisión mejorada para el texto mecanografiado y escrito a mano en las imágenes. Análisis de imágenes 4.0 generalmente está disponible. 
  • Modelo de fundación de Florencia: Capacitada con miles de millones de pares de texto-imagen e integrada como servicios de visión por computadora rentables y listos para producción en Azure AI Vision, esta característica mejorada permite a los desarrolladores crear aplicaciones de visión por computadora responsables, listas para el mercado y de vanguardia en diversas industrias. Modelo de fundación de Florencia generalmente está disponible.

Finalmente, las nuevas actualizaciones de Azure AI Services harán que el proceso de extraer información de los vídeos sea más fácil que nunca. Ahora puede usar Azure AI para obtener un resumen de texto del contenido de un vídeo. Además, puedes buscar ahora buscar temas, momentos o detalles específicos dentro de videos extensos usando lenguaje natural. Encuentre los detalles a continuación.

  • Resumen de vídeo a texto: Los usuarios podrán extraer la esencia del contenido de vídeo y generar resúmenes de texto concisos e informativos. El algoritmo avanzado segmenta los vídeos en capítulos coherentes, aprovechando señales visuales, de audio y de texto para crear secciones que se acomodan fácilmente en ventanas de indicaciones de modelos de lenguaje grandes (LLM). Cada sección contiene contenido esencial, incluidas transcripciones, eventos de audio y elementos visuales. Esto es ideal para crear resúmenes en vídeo, materiales de capacitación o compartir conocimientos.
  • Búsqueda eficiente de contenido de vídeo: Los usuarios podrán transformar el contenido de video en un formato de búsqueda utilizando los conocimientos de LLM y Video Indexer. Al convertir información valiosa en video en indicaciones compatibles con LLM, se puede acceder a los aspectos más destacados para una búsqueda efectiva. La segmentación de escenas, los eventos de audio y los detalles visuales mejoran aún más la división del contenido, lo que permite a los usuarios localizar rápidamente temas, momentos o detalles específicos dentro de vídeos extensos.

Más sobre los temas: IA de Azure, microsoft, avatar de texto a voz