VALL-E от Microsoft копирует голоса и эмоции оригинальных ораторов, чтобы синтезировать персонализированные речи.

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Новая языковая модель Microsoft VALL-E представляет собой интересный инструмент искусственного интеллекта, который может копировать человеческие голоса и даже эмоции и тона в них. Для использования в качестве акустической подсказки требуется всего лишь трехсекундная запись, но он может передать другое сообщение, используя голос исходного говорящего. (Темы ИИ с помощью Окна Центральный)

Microsoft много инвестирует в ИИ. Помимо технологии искусственного интеллекта OpenAI ChatGPT (которая будет интегрирована в Bing и другие Офисные приложения), у него также есть недавно выпущенный инструмент VALL-E. Это языковая модель, обученная на 60,000 XNUMX часов данных английской речи. Благодаря этой технологии человек может синтезировать персонализированную речь, используя голос другого говорящего.

В эксперименте, подробно описанном в статье (Корнельского университета), VALL-E был протестирован и дал положительные результаты.

«Результаты экспериментов показывают, что VALL-E значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих», — говорится в документе. «Кроме того, мы обнаружили, что VALL-E может сохранять эмоции говорящего и акустическую среду акустической подсказки в синтезе».

В некоторых из образцы поделился, синтезированные речи с использованием акустических подсказок звучат почти безупречно. VALL-E удалось скопировать те же тона и эмоции из оригинальных динамиков и даже использовать их для совершенно другой персонализированной речи. Например, он мог производить записи одного и того же предложения («Мы должны уменьшить количество пластиковых пакетов“) произносится с разным настроением или тонами, такими как гнев, сонливость, нейтральность, веселье и отвращение.

Несмотря на эту исключительную производительность, у Microsoft, вероятно, есть дальнейшие планы по улучшению VALL-E в будущем, чтобы обеспечить более безупречную производительность. И хотя это может быть полезно для различных сценариев, технология также может быть опасной в руках не тех людей. К счастью, в настоящее время она недоступна для широкой публики, что может дать компании из Редмонда больше времени, чтобы подумать о том, как и где она будет предлагать эту технологию.

Что вы думаете об этом? Дайте нам знать в разделе комментариев. 

Подробнее о темах: Artificial Intelligence, ВАЛЛ-Э

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *