VALL-E от Microsoft копирует голоса и эмоции оригинальных ораторов, чтобы синтезировать персонализированные речи.
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Новая языковая модель Microsoft VALL-E представляет собой интересный инструмент искусственного интеллекта, который может копировать человеческие голоса и даже эмоции и тона в них. Для использования в качестве акустической подсказки требуется всего лишь трехсекундная запись, но он может передать другое сообщение, используя голос исходного говорящего. (Темы ИИ с помощью Окна Центральный)
Microsoft много инвестирует в ИИ. Помимо технологии искусственного интеллекта OpenAI ChatGPT (которая будет интегрирована в Bing и другие Офисные приложения), у него также есть недавно выпущенный инструмент VALL-E. Это языковая модель, обученная на 60,000 XNUMX часов данных английской речи. Благодаря этой технологии человек может синтезировать персонализированную речь, используя голос другого говорящего.
В эксперименте, подробно описанном в статье (Корнельского университета), VALL-E был протестирован и дал положительные результаты.
«Результаты экспериментов показывают, что VALL-E значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих», — говорится в документе. «Кроме того, мы обнаружили, что VALL-E может сохранять эмоции говорящего и акустическую среду акустической подсказки в синтезе».
В некоторых из образцы поделился, синтезированные речи с использованием акустических подсказок звучат почти безупречно. VALL-E удалось скопировать те же тона и эмоции из оригинальных динамиков и даже использовать их для совершенно другой персонализированной речи. Например, он мог производить записи одного и того же предложения («Мы должны уменьшить количество пластиковых пакетов“) произносится с разным настроением или тонами, такими как гнев, сонливость, нейтральность, веселье и отвращение.
Несмотря на эту исключительную производительность, у Microsoft, вероятно, есть дальнейшие планы по улучшению VALL-E в будущем, чтобы обеспечить более безупречную производительность. И хотя это может быть полезно для различных сценариев, технология также может быть опасной в руках не тех людей. К счастью, в настоящее время она недоступна для широкой публики, что может дать компании из Редмонда больше времени, чтобы подумать о том, как и где она будет предлагать эту технологию.
Что вы думаете об этом? Дайте нам знать в разделе комментариев.