Microsoft объявляет о нескольких новых функциях Azure AI, включая преобразование текста в речь аватара

Значок времени чтения 3 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Microsoft Azure AI Голос

Службы искусственного интеллекта Azure позволяют разработчикам создавать приложения искусственного интеллекта с использованием готовых, предварительно созданных и настраиваемых API и моделей. Службы Azure AI включают службу Vision, службу речи, службу переводчика и многое другое. Сегодня на выставке Ignite 2023 Microsoft анонсировала несколько новых функций Azure AI, включая преобразование текста в речь, персональный нейронный голос, новый улучшенный режим машинного перевода и многое другое. Подробности ниже.

  • Новая оптимизация задач возможность обобщения в Azure AI Language на базе крупных языковых моделей (GPT-3.5-Turbo, GPT-4, Z-Code++ и других).
  • Новая модель машинного перевода способный переводить с одного языка на другой без перевода на английский в качестве посредника. Кроме того, его можно настроить с использованием данных о клиентах, чтобы лучше согласовать переводы с контекстом отрасли.
  • Распознавание именованных объектов, перевод документов и обобщение в контейнерах позволят государственным учреждениям и отраслям, таким как финансовые услуги и здравоохранение, со строгими требованиями к местонахождению данных запускать сервисы ИИ в собственной инфраструктуре.
  • Персональный голос, новую функцию настраиваемого нейронного голоса, которая позволит компаниям создавать собственные нейронные голоса с 60-секундными аудиосэмплами для своих пользователей. Персональный голос функция ограниченного доступа
  • Аватар преобразования текста в речь, новую возможность преобразования текста в речь, которая будет генерировать реалистичное факсимиле говорящего человека на основе входных текстовых и видеоданных говорящего реального человека. Как готовые, так и пользовательские аватары теперь доступны в предварительной версии, однако доступ к пользовательскому аватару ограничен. 

Служба Azure AI Vision получает следующие обновления:

  • Функциональность живости и Видение SDK: Функциональность Liveness поможет предотвратить атаки с подменой распознавания лиц и соответствует стандарту ISO 30107-3 PAD Level 2. Vision SDK for Face позволит разработчикам легко добавлять распознавание лиц и живость в мобильные приложения. Обе функции находятся в предварительной версии. 
  • Анализ изображений 4.0: Этот API представляет передовые модели анализа изображений, включающие субтитры к изображениям, распознавание текста, обнаружение объектов и многое другое, и все это доступно через единую синхронную конечную точку API. Примечательно, что улучшенная модель оптического распознавания символов обеспечивает повышенную точность как печатного, так и рукописного текста на изображениях. Анализ изображений 4.0 вообще доступен. 
  • Модель фундамента Флоренции: Эта улучшенная функция, обученная на миллиардах пар «текст-изображение» и интегрированная в качестве экономичных, готовых к использованию служб компьютерного зрения в Azure AI Vision, позволяет разработчикам создавать передовые, готовые к выходу на рынок и ответственные приложения компьютерного зрения в различных отраслях. Модель фундамента Флоренции вообще доступен.

Наконец, новые обновления в Azure AI Services сделают процесс извлечения ценной информации из видео проще, чем когда-либо. Теперь вы можете использовать Azure AI для получения текстовой сводки видеоконтента. Кроме того, вы можете выполнить поиск сейчас. конкретные темы, моменты или детали в обширных видеороликах с использованием естественного языка. Подробности ниже.

  • Сводка видео в текст: Пользователи смогут извлекать суть видеоконтента и создавать краткие и информативные текстовые резюме. Усовершенствованный алгоритм сегментирует видео на последовательные главы, используя визуальные, звуковые и текстовые подсказки для создания разделов, которые легко размещаются в окнах подсказок большой языковой модели (LLM). Каждый раздел содержит необходимый контент, включая стенограммы, аудиособытия и визуальные элементы. Это идеальное решение для создания видеообзоров, учебных материалов или обмена знаниями.
  • Эффективный поиск видеоконтента: Пользователи смогут преобразовывать видеоконтент в формат с возможностью поиска, используя LLM и данные Video Indexer. Преобразуя видеоинформацию в подсказки, удобные для LLM, основные моменты становятся доступными для эффективного поиска. Сегментация сцен, аудиособытия и визуальные детали еще больше улучшают разделение контента, позволяя пользователям быстро находить конкретные темы, моменты или детали в обширных видеороликах.

Подробнее о темах: Лазурный ИИ, Microsoft, аватар с преобразованием текста в речь