Microsoft объявляет о нескольких новых функциях Azure AI, включая преобразование текста в речь аватара

3 минута. читать

Опубликовано 15 ноября 2023

Опубликован в 15 ноября 2023

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Службы искусственного интеллекта Azure позволяют разработчикам создавать приложения искусственного интеллекта с использованием готовых, предварительно созданных и настраиваемых API и моделей. Службы Azure AI включают службу Vision, службу речи, службу переводчика и многое другое. Сегодня на выставке Ignite 2023 Microsoft анонсировала несколько новых функций Azure AI, включая преобразование текста в речь, персональный нейронный голос, новый улучшенный режим машинного перевода и многое другое. Подробности ниже.

Новая оптимизация задач возможность обобщения в Azure AI Language на базе крупных языковых моделей (GPT-3.5-Turbo, GPT-4, Z-Code++ и других).
Новая модель машинного перевода способный переводить с одного языка на другой без перевода на английский в качестве посредника. Кроме того, его можно настроить с использованием данных о клиентах, чтобы лучше согласовать переводы с контекстом отрасли.
Распознавание именованных объектов, перевод документов и обобщение в контейнерах позволят государственным учреждениям и отраслям, таким как финансовые услуги и здравоохранение, со строгими требованиями к местонахождению данных запускать сервисы ИИ в собственной инфраструктуре.
Персональный голос, новую функцию настраиваемого нейронного голоса, которая позволит компаниям создавать собственные нейронные голоса с 60-секундными аудиосэмплами для своих пользователей. Персональный голос функция ограниченного доступа.
Аватар преобразования текста в речь, новую возможность преобразования текста в речь, которая будет генерировать реалистичное факсимиле говорящего человека на основе входных текстовых и видеоданных говорящего реального человека. Как готовые, так и пользовательские аватары теперь доступны в предварительной версии, однако доступ к пользовательскому аватару ограничен.

Служба Azure AI Vision получает следующие обновления:

Функциональность живости и Видение SDK: Функциональность Liveness поможет предотвратить атаки с подменой распознавания лиц и соответствует стандарту ISO 30107-3 PAD Level 2. Vision SDK for Face позволит разработчикам легко добавлять распознавание лиц и живость в мобильные приложения. Обе функции находятся в предварительной версии.
Анализ изображений 4.0: Этот API представляет передовые модели анализа изображений, включающие субтитры к изображениям, распознавание текста, обнаружение объектов и многое другое, и все это доступно через единую синхронную конечную точку API. Примечательно, что улучшенная модель оптического распознавания символов обеспечивает повышенную точность как печатного, так и рукописного текста на изображениях. Анализ изображений 4.0 вообще доступен.
Модель фундамента Флоренции: Эта улучшенная функция, обученная на миллиардах пар «текст-изображение» и интегрированная в качестве экономичных, готовых к использованию служб компьютерного зрения в Azure AI Vision, позволяет разработчикам создавать передовые, готовые к выходу на рынок и ответственные приложения компьютерного зрения в различных отраслях. Модель фундамента Флоренции вообще доступен.

Наконец, новые обновления в Azure AI Services сделают процесс извлечения ценной информации из видео проще, чем когда-либо. Теперь вы можете использовать Azure AI для получения текстовой сводки видеоконтента. Кроме того, вы можете выполнить поиск сейчас. конкретные темы, моменты или детали в обширных видеороликах с использованием естественного языка. Подробности ниже.

Сводка видео в текст: Пользователи смогут извлекать суть видеоконтента и создавать краткие и информативные текстовые резюме. Усовершенствованный алгоритм сегментирует видео на последовательные главы, используя визуальные, звуковые и текстовые подсказки для создания разделов, которые легко размещаются в окнах подсказок большой языковой модели (LLM). Каждый раздел содержит необходимый контент, включая стенограммы, аудиособытия и визуальные элементы. Это идеальное решение для создания видеообзоров, учебных материалов или обмена знаниями.
Эффективный поиск видеоконтента: Пользователи смогут преобразовывать видеоконтент в формат с возможностью поиска, используя LLM и данные Video Indexer. Преобразуя видеоинформацию в подсказки, удобные для LLM, основные моменты становятся доступными для эффективного поиска. Сегментация сцен, аудиособытия и визуальные детали еще больше улучшают разделение контента, позволяя пользователям быстро находить конкретные темы, моменты или детали в обширных видеороликах.

Подробнее о темах: Лазурный ИИ, Microsoft, аватар с преобразованием текста в речь