Microsoft의 새로운 VASA-1은 이미지와 음성을 통해 사실적인 말하는 얼굴을 만듭니다.

선거 직전에 나쁜 타이밍에 대해 이야기하십시오.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

주요 사항

  • 새로운 AI 시스템인 VASA는 단일 이미지와 오디오 클립에서 사실적인 말하는 얼굴을 만들어냅니다.
  • VASA는 립싱크를 뛰어넘어 감정과 자연스러운 머리 움직임을 포착하여 실제와 같은 결과를 만들어냅니다.
  • 이 시스템은 생성된 비디오의 시선, 거리, 감정을 제어할 수 있습니다.

Microsoft 연구원들은 단일 이미지와 오디오 클립으로 실제와 같은 말하는 얼굴을 만들 수 있는 새로운 VASA 시스템을 개발했습니다. 이 프레임워크로 구축된 최초의 모델인 VASA-1은 얼굴 표정, 정확하게 동기화된 입술 움직임, 자연스러운 머리 움직임을 생성할 수 있습니다. 이는 다양한 애플리케이션에서 더욱 매력적이고 현실적인 경험을 창출할 수 있는 잠재력을 가지고 있습니다.

VASA-1은 단순히 입술의 움직임을 오디오에 일치시키는 것 이상입니다. 다양한 감정, 미묘한 얼굴 뉘앙스, 자연스러운 머리 움직임을 포착하여 생성된 얼굴을 더욱 사실적으로 보이게 합니다. 또한 생성된 비디오를 제어할 수도 있습니다. 사용자는 캐릭터의 시선 방향, 인지된 거리, 감정 상태까지 지정할 수 있습니다.

가장 좋은 점은 시스템이 예상치 못한 입력도 처리할 수 있도록 설계되었다는 것입니다. 예술적인 사진, 노래하는 목소리 또는 영어가 아닌 음성에 대해 교육받지 않았더라도 VASA-1은 이러한 입력을 사용하여 비디오를 생성할 수 있습니다.

VASA-1은 얼굴 특징, 3D 머리 위치 및 얼굴 표정을 별개의 부분으로 분리하여 이러한 사실감을 얻습니다. 이러한 "분리"를 통해 생성된 비디오 내에서 이러한 측면을 독립적으로 제어하고 편집할 수 있습니다.

VASA-1의 연구원들은 실시간 효율성을 강조합니다. 시스템은 높은 프레임 속도로 고해상도 비디오(512×512 픽셀)를 생성할 수 있습니다. 오프라인 모드에서는 초당 45프레임의 속도로 프레임을 생성하는 반면, 온라인 생성에서는 초당 40프레임을 제공합니다.

연구원들은 오용 가능성을 인정하면서도 VASA-1의 긍정적인 적용을 강조합니다. 여기에는 교육 경험 강화, 의사소통 문제가 있는 사람들 지원, 동료애 또는 치료 지원 제공이 포함됩니다.

어느 쪽이든, 나는 여전히 이 연구 논문의 시기에 대해 의문을 제기합니다. 사람들이 소셜 미디어에서 보는 것은 무엇이든 믿을 것이기 때문에 연기되었을 수도 있다고 생각합니다. 이 기술은 특히 선거가 있을 때 심각하게 오용될 수 있습니다. 그리고 이 기술을 찾아보니 Google의 VLOGGER와 매우 유사합니다.

아직 새롭다는 건 알지만 눈 움직임이 이상하게 느껴지네요. LINK.

사용자 포럼

0 메시지