Корпорація Майкрософт анонсує кілька нових функцій в Azure AI, включаючи аватар для перетворення тексту в мовлення

Значок часу читання 3 хв. читати

Піктограма календаря Опубліковано Листопад 15, 2023

опубліковано на Листопад 15, 2023

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Служби штучного інтелекту Azure дозволяють розробникам створювати програми штучного інтелекту з готовими та попередньо створеними та настроюваними API та моделями. Сервіси Azure AI включають сервіс зору, сервіс мовлення, сервіс перекладача тощо. На Ignite 2023 Microsoft сьогодні анонсувала кілька нових функцій в Azure AI, включаючи аватар з перетворенням тексту в мовлення, особистий нейронний голос, новий покращений режим машинного перекладу тощо. Знайдіть деталі нижче.

Новий завдання-оптимізація можливість узагальнення на мові Azure AI, що базується на великих мовних моделях (GPT-3.5-Turbo, GPT-4, Z-Code++ тощо).
Новий модель машинного перекладу здатний перекладати з однієї мови на іншу без перекладу англійською як посередником. Крім того, його можна налаштувати за допомогою даних клієнтів, щоб краще узгодити переклади з контекстом галузі.
Розпізнавання іменованих об’єктів, переклад документів і узагальнення в контейнерах дозволять державним установам і галузям, таким як фінансові послуги та охорона здоров’я, із суворими вимогами до постійності даних, запускати служби ШІ на власній інфраструктурі.
Особистий голос, нова функція спеціального нейронного голосу, яка дозволить компаніям створювати власні нейронні голосові сигнали з 60-секундними зразками аудіо для своїх користувачів. Особистий голос є функція обмеженого доступу.
Аватар для синтезу мовлення, нова можливість перетворення тексту в мовлення, яка генеруватиме реалістичне факсиміле людини, що говорить, на основі введеного тексту та відео даних реальної людини, яка говорить. І готові, і спеціальні аватари тепер доступні для попереднього перегляду, однак доступ до спеціальних аватарів обмежено.

Сервіс Azure AI Vision отримує такі оновлення:

Функціонал живості та Vision SDK: Функціональність Liveness допоможе запобігти атакам спуфінгу розпізнавання облич і відповідає стандарту ISO 30107-3 PAD Level 2. Vision SDK for Face дозволить розробникам легко додавати розпізнавання облич і живість до мобільних додатків. Обидві функції знаходяться в попередньому перегляді.
Аналіз зображень 4.0: Цей API представляє найсучасніші моделі аналізу зображень, що включають субтитри до зображень, OCR, виявлення об’єктів тощо, доступ до яких здійснюється через єдину синхронну кінцеву точку API. Примітно, що покращена модель OCR може похвалитися покращеною точністю як для друкованого, так і для рукописного тексту на зображеннях. Аналіз зображень 4.0 є загальнодоступним.
Модель фундаменту Флоренції: Ця покращена функція, навчена мільярдами пар текст-зображення та інтегрована як економічно ефективні, готові до виробництва служби комп’ютерного бачення в Azure AI Vision, дозволяє розробникам створювати передові, готові до ринку відповідальні програми комп’ютерного бачення в різних галузях. Модель фундаменту Флоренція є загальнодоступним.

Нарешті, нові оновлення в Azure AI Services зроблять процес отримання аналітичних даних із відео простішим, ніж будь-коли. Тепер ви можете використовувати Azure AI, щоб отримати текстове резюме відеоконтенту. Крім того, ви можете шукати зараз шукати конкретні теми, моменти чи деталі у великих відео з використанням природної мови. Знайдіть деталі нижче.

Резюме відео-в-текст: Користувачі зможуть витягти суть відеоконтенту та створити стислі та інформативні текстові резюме. Удосконалений алгоритм сегментує відео на послідовні розділи, використовуючи візуальні, звукові та текстові підказки для створення розділів, які легко розміщуються у вікнах підказок великої мовної моделі (LLM). Кожен розділ містить важливий вміст, включаючи стенограми, аудіоподії та візуальні елементи. Це ідеальний варіант для створення відеозвітів, навчальних матеріалів або обміну знаннями.
Ефективний пошук відеовмісту: Користувачі зможуть перетворювати відеовміст у формат, доступний для пошуку, використовуючи знання LLM і Video Indexer. Завдяки перетворенню відеостатистики на підказки, зручні для LLM, основні моменти стають доступними для ефективного пошуку. Сегментація сцени, звукові події та візуальні деталі ще більше покращують поділ вмісту, дозволяючи користувачам швидко знаходити конкретні теми, моменти чи деталі у великих відео.

Детальніше про теми: Azure AI, Microsoft, аватар для синтезу мовлення

Прадіп Вісвав

Експерт з програмного забезпечення та послуг

Прадіп є випускником інформатики та інженерії. Він також був студентським партнером Microsoft. Зараз працює у провідній IT-компанії.