Microsoft의 새로운 VASA-1은 이미지와 음성을 통해 사실적인 말하는 얼굴을 만듭니다.

선거 직전에 나쁜 타이밍에 대해 이야기하십시오.

홈페이지 » 뉴스

독서 시간 아이콘 2 분. 읽다

달력 아이콘 에 업데이트 됨 2024 년 7 월 10 일

by 데베쉬베리

업데이트 2024 년 7 월 10 일

독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다.

주요 사항

새로운 AI 시스템인 VASA는 단일 이미지와 오디오 클립에서 사실적인 말하는 얼굴을 만들어냅니다.
VASA는 립싱크를 뛰어넘어 감정과 자연스러운 머리 움직임을 포착하여 실제와 같은 결과를 만들어냅니다.
이 시스템은 생성된 비디오의 시선, 거리, 감정을 제어할 수 있습니다.

Microsoft 연구원들은 단일 이미지와 오디오 클립으로 실제와 같은 말하는 얼굴을 만들 수 있는 새로운 VASA 시스템을 개발했습니다. 이 프레임워크로 구축된 최초의 모델인 VASA-1은 얼굴 표정, 정확하게 동기화된 입술 움직임, 자연스러운 머리 움직임을 생성할 수 있습니다. 이는 다양한 애플리케이션에서 더욱 매력적이고 현실적인 경험을 창출할 수 있는 잠재력을 가지고 있습니다.

VASA-1은 단순히 입술의 움직임을 오디오에 일치시키는 것 이상입니다. 다양한 감정, 미묘한 얼굴 뉘앙스, 자연스러운 머리 움직임을 포착하여 생성된 얼굴을 더욱 사실적으로 보이게 합니다. 또한 생성된 비디오를 제어할 수도 있습니다. 사용자는 캐릭터의 시선 방향, 인지된 거리, 감정 상태까지 지정할 수 있습니다.

가장 좋은 점은 시스템이 예상치 못한 입력도 처리할 수 있도록 설계되었다는 것입니다. 예술적인 사진, 노래하는 목소리 또는 영어가 아닌 음성에 대해 교육받지 않았더라도 VASA-1은 이러한 입력을 사용하여 비디오를 생성할 수 있습니다.

VASA-1은 얼굴 특징, 3D 머리 위치 및 얼굴 표정을 별개의 부분으로 분리하여 이러한 사실감을 얻습니다. 이러한 "분리"를 통해 생성된 비디오 내에서 이러한 측면을 독립적으로 제어하고 편집할 수 있습니다.

VASA-1의 연구원들은 실시간 효율성을 강조합니다. 시스템은 높은 프레임 속도로 고해상도 비디오(512×512 픽셀)를 생성할 수 있습니다. 오프라인 모드에서는 초당 45프레임의 속도로 프레임을 생성하는 반면, 온라인 생성에서는 초당 40프레임을 제공합니다.

연구원들은 오용 가능성을 인정하면서도 VASA-1의 긍정적인 적용을 강조합니다. 여기에는 교육 경험 강화, 의사소통 문제가 있는 사람들 지원, 동료애 또는 치료 지원 제공이 포함됩니다.

어느 쪽이든, 나는 여전히 이 연구 논문의 시기에 대해 의문을 제기합니다. 사람들이 소셜 미디어에서 보는 것은 무엇이든 믿을 것이기 때문에 연기되었을 수도 있다고 생각합니다. 이 기술은 특히 선거가 있을 때 심각하게 오용될 수 있습니다. 그리고 이 기술을 찾아보니 Google의 VLOGGER와 매우 유사합니다.

아직 새롭다는 건 알지만 눈 움직임이 이상하게 느껴지네요. LINK.

데베쉬베리

테크 저널리스트

유익하고 도움이 되는 콘텐츠를 만들고, 모터스포츠와 음악에 대한 열정을 추구하고, 탐험에 참여하고, 건강한 생활 방식을 유지하고, 사랑스러운 고양이 타코와 함께 시간을 보내는 것 등이 저에게 동기를 부여합니다.

사용자 포럼

0 메시지

기준 :

댓글을 남겨주세요.