Microsoft anuncia varias características nuevas en Azure AI, incluido el avatar de texto a voz

3 minuto. leer

Publicado el 15 de noviembre.

Publicado en 15 de noviembre.

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Los servicios de Azure AI permiten a los desarrolladores crear aplicaciones de IA con API y modelos listos para usar, prediseñados y personalizables. Los servicios de Azure AI incluyen el servicio de visión, el servicio de voz, el servicio de traducción y más. En Ignite 2023, Microsoft anunció hoy varias características nuevas en Azure AI, incluido un avatar de texto a voz, voz neuronal personal, un nuevo modo de traducción automática mejorado y más. Encuentre los detalles a continuación.

Una nueva encuesta optimización de tareas capacidad de resumen en Azure AI Language, impulsado por grandes modelos de lenguaje (GPT-3.5-Turbo, GPT-4, Z-Code++ y más).
Una nueva encuesta modelo de traducción automática capaz de traducir de un idioma a otro sin necesidad de traducir en inglés como intermediario. Además, se puede personalizar utilizando los datos del cliente para alinear mejor las traducciones con el contexto de la industria.
Reconocimiento de entidad nombrada, la traducción y el resumen de documentos en contenedores permitirán a las agencias e industrias gubernamentales, como las de servicios financieros y de atención médica, con estrictos requisitos de residencia de datos, ejecutar servicios de inteligencia artificial en su propia infraestructura.
Voz personal, una nueva función de voz neuronal personalizada que permitirá a las empresas crear voces neuronales personalizadas con 60 segundos de muestras de audio para sus usuarios. La voz personal es una función de acceso limitado.
Avatar de texto a voz, una nueva capacidad de conversión de texto a voz que generará un facsímil realista de una persona hablando basándose en texto ingresado y datos de video de una persona real hablando. Tanto los avatares prediseñados como los personalizados están ahora en versión preliminar; sin embargo, el avatar personalizado es una función de acceso limitado.

El servicio Azure AI Vision recibirá las siguientes actualizaciones:

Funcionalidad de vida y SDK de visión: La funcionalidad Liveness ayudará a prevenir ataques de suplantación de reconocimiento facial y cumple con ISO 30107-3 PAD Nivel 2. Vision SDK para Face permitirá a los desarrolladores agregar fácilmente reconocimiento facial y Liveness a las aplicaciones móviles. Ambas funciones están en versión preliminar.
Análisis de imagen 4.0: Esta API presenta modelos de análisis de imágenes de vanguardia, que abarcan subtítulos de imágenes, OCR, detección de objetos y más, todos accesibles a través de un único punto final API sincrónico. En particular, el modelo OCR mejorado cuenta con una precisión mejorada para el texto mecanografiado y escrito a mano en las imágenes. Análisis de imágenes 4.0 generalmente está disponible.
Modelo de fundación de Florencia: Capacitada con miles de millones de pares de texto-imagen e integrada como servicios de visión por computadora rentables y listos para producción en Azure AI Vision, esta característica mejorada permite a los desarrolladores crear aplicaciones de visión por computadora responsables, listas para el mercado y de vanguardia en diversas industrias. Modelo de fundación de Florencia generalmente está disponible.

Finalmente, las nuevas actualizaciones de Azure AI Services harán que el proceso de extraer información de los vídeos sea más fácil que nunca. Ahora puede usar Azure AI para obtener un resumen de texto del contenido de un vídeo. Además, puedes buscar ahora buscar temas, momentos o detalles específicos dentro de videos extensos usando lenguaje natural. Encuentre los detalles a continuación.

Resumen de vídeo a texto: Los usuarios podrán extraer la esencia del contenido de vídeo y generar resúmenes de texto concisos e informativos. El algoritmo avanzado segmenta los vídeos en capítulos coherentes, aprovechando señales visuales, de audio y de texto para crear secciones que se acomodan fácilmente en ventanas de indicaciones de modelos de lenguaje grandes (LLM). Cada sección contiene contenido esencial, incluidas transcripciones, eventos de audio y elementos visuales. Esto es ideal para crear resúmenes en vídeo, materiales de capacitación o compartir conocimientos.
Búsqueda eficiente de contenido de vídeo: Los usuarios podrán transformar el contenido de video en un formato de búsqueda utilizando los conocimientos de LLM y Video Indexer. Al convertir información valiosa en video en indicaciones compatibles con LLM, se puede acceder a los aspectos más destacados para una búsqueda efectiva. La segmentación de escenas, los eventos de audio y los detalles visuales mejoran aún más la división del contenido, lo que permite a los usuarios localizar rápidamente temas, momentos o detalles específicos dentro de vídeos extensos.

Más sobre los temas: IA de Azure, microsoft, avatar de texto a voz

Pradeep Viswav

Experto en Software y Servicios

Pradeep es un graduado en ingeniería y ciencias de la computación. También fue socio estudiantil de Microsoft. Actualmente trabaja en una empresa líder en TI.