Microsoft의 VALL-E는 원래 화자의 목소리, 감정을 복사하여 개인화된 연설을 합성합니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

Microsoft의 새로운 언어 모델인 VALL-E는 사람의 목소리와 그 안에 있는 감정과 어조까지 복사할 수 있는 흥미로운 인공 지능 도구입니다. 음향 프롬프트로 사용하려면 XNUMX초만 녹음하면 되지만 원래 화자의 음성을 사용하여 다른 메시지를 전달할 수 있습니다. (AI주제 를 통해 윈도우 중앙)

Microsoft는 AI에 많은 투자를 하고 있습니다. OpenAI의 ChatGPT AI 기술 외에도 및 기타 Office 앱), 최근 출시된 VALL-E 도구도 있습니다. 60,000시간의 영어 음성 데이터로 학습된 언어 모델입니다. 이 기술을 통해 사람은 다른 화자의 음성을 사용하여 개인화된 음성을 합성할 수 있습니다.

논문에 자세히 설명된 실험에서(Cornell University), VALL-E를 테스트하여 좋은 결과를 얻었습니다.

"실험 결과는 VALL-E가 음성 자연성과 화자 유사성 측면에서 최첨단 제로 샷 TTS 시스템보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다."라고 논문은 말합니다. "또한 우리는 VALL-E가 합성 시 음향 프롬프트의 화자의 감정과 음향 환경을 보존할 수 있음을 발견했습니다."

일부에서는 샘플 공유, 음향 프롬프트를 사용하여 합성된 연설은 거의 완벽하게 들립니다. VALL-E는 원래 스피커에서 동일한 톤과 감정을 복사하고 심지어 매우 다른 개인화된 연설을 전달하는 데 사용했습니다. 예를 들어, 동일한 문장의 녹음을 생성할 수 있었습니다(“비닐봉지의 수를 줄여야 합니다.") 분노, 졸음, 중립성, 즐거움, 혐오감 등 다양한 기분이나 어조로 전달됩니다.

이러한 뛰어난 성능에도 불구하고 Microsoft는 향후 VALL-E를 더 개선하여 보다 완벽한 성능을 제공할 수 있도록 추가 계획을 가지고 있을 것입니다. 다양한 사례 시나리오에 유용할 수 있지만 잘못된 개인의 손에 따라 기술이 위험할 수도 있습니다. 고맙게도 현재 대중에게 공개되지 않았기 때문에 Redmond 회사는 이 기술을 제공하는 방법과 장소에 대해 생각할 시간을 더 많이 가질 수 있습니다.

이것에 대한 당신의 의견은 무엇입니까? 의견 섹션에서 알려주십시오. 

사용자 포럼

0 메시지