구글 딥마인드, 동영상 생성을 위한 실감 있는 오디오 기술 V2A 공개
구글 딥마인드는 무음 동영상에 생동감 있는 오디오 트랙을 생성할 수 있는 혁신적인 AI 모델 '비디오-투-오디오(V2A)'를 소개했습니다. 이 기술은 동영상 화소와 텍스트 프롬프트를 활용하여 대화, 사운드 효과, 음악 등의 세부적인 오디오를 만들어낼 수 있습니다. V2A는 다양한 동영상 생성 모델과 통합되어 감동적인 음악, 현실적인 소리 효과, 동영상의 톤과 등장인물에 맞는 대사를 만들어낼 수 있습니다. 이 모델은 동영상 입력을 인코딩하고, 확산 모델을 사용하여 잡음에서 오디오를 정제한 후, 동영상과 일치하도록 오디오를 디코딩합니다. 그러나 오디오 품질은 입력 동영상의 품질에 의존적이며, 입술 동기화 문제도 여전히 해결해야 합니다. 현재 딥마인드는 대중에게 V2A를 제공하기 전에 크리에이터와 영화 제작자의 의견을 수렴하고 있으며, 안전성 평가와 테스트를 수행할 계획입니다.