ByteDance, 사람 애니메이션을 위한 획기적인 OmniHuman-1 AI 프레임워크 공개

작성자
CTOL Editors - Ken
13 분 독서

ByteDance, 초실사적인 인물 애니메이션을 위한 획기적인 AI 프레임워크 OmniHuman-1 공개

ByteDance 연구팀이 최근 발표한 논문 **"OmniHuman-1: 단일 단계 조건부 인물 애니메이션 모델의 스케일 업 재고"**로 AI 및 애니메이션 커뮤니티를 떠들썩하게 만들었습니다. 2월 3일에 발표된 이 논문은 OmniHuman 프레임워크를 소개합니다. OmniHuman은 다양한 모션 관련 조건을 훈련 중에 혼합하여 인물 비디오 생성을 혁신할 수 있는 다중 모드 확산 트랜스포머 기반 접근 방식입니다. 아직 제품이나 다운로드는 없지만("현재 당사는 어디에서도 서비스나 다운로드를 제공하지 않습니다."), 이 획기적인 연구는 놀라운, 거의 사진과 같은 애니메이션 결과로 이미 광범위한 관심을 받았습니다.


2월 3일, ByteDance 연구팀은 AI 기반 인물 애니메이션의 최신 혁신 기술인 OmniHuman-1을 공개했습니다. 이 최첨단 프레임워크는 확산 트랜스포머 아키텍처를 활용하여 텍스트, 오디오, 포즈 및 시각적 참조 신호의 조합을 사용하여 매우 사실적인 인물 비디오를 생성합니다. "OmniHuman-1: 단일 단계 조건부 인물 애니메이션 모델의 스케일 업 재고"라는 제목의 연구 논문에서는 연구팀이 고품질 훈련 데이터 부족과 이전 엔드 투 엔드 모델의 한계와 같은 비디오 합성의 기존 과제를 극복한 방법과 새로운 다중 모드 훈련 전략을 도입하여 극복한 방법을 자세히 설명합니다.

프레임워크의 주요 요소는 다음과 같습니다.

  • 다중 모드 조건: OmniHuman은 다양한 구동 신호를 통합합니다. 텍스트-비디오 작업에는 사전 훈련된 Seaweed 모델, 오디오 특징 추출에는 wav2vec, 모션 지침에는 특수 포즈 인코더, 참조 이미지 인코딩에는 VAE를 사용합니다.
  • 혁신적인 훈련 전략: 이 프레임워크는 데이터 품질과 조건 강도의 균형을 맞추는 3단계 훈련 프로세스를 사용하여 혼합 품질 데이터 세트(18.7K 시간의 인물 관련 데이터, 13%는 고품질 오디오 및 포즈 데이터로 구성)를 사용하는 경우에도 안정성과 사실성을 보장합니다.
  • 강력한 추론 기술: 추론 중에 OmniHuman은 활성 조건(예: 오디오 및 텍스트를 활성화하고 필요한 경우 포즈를 선택적으로 비활성화)을 동적으로 조정하고 분류기 없는 지침을 적용하여 성능과 계산 효율성을 최적화합니다.

이 연구는 모델이 실제 인물 영상과 거의 구별할 수 없는 애니메이션을 생성하는 30초 비디오 클립을 포함한 획기적인 시연을 강조합니다. 데모에는 Jensen Huang이 디스코를 부르는 모습과 유명 코미디언의 보이스오버와 같은 주목할 만한 예가 포함되어 있어 영화 제작 및 디지털 콘텐츠 제작과 같은 산업에 미치는 프레임워크의 잠재적 영향을 더욱 강조합니다.


주요 내용

  • 혁신적인 다중 모드 프레임워크: OmniHuman-1은 텍스트, 오디오, 포즈 및 시각적 참조 신호를 완벽하게 통합하여 실감 나는 인물 애니메이션을 생성하는 확산 트랜스포머 아키텍처를 기반으로 구축되었습니다.
  • 혁신적인 훈련 기술: 3단계 훈련 전략을 채택하고 (불완전하지만 유용한 샘플을 포함한) 혼합 데이터를 활용하여 프레임워크는 데이터 부족 및 모델 제한의 오랜 문제를 극복합니다.
  • 고품질의 다재다능한 출력: 데모에 따르면 OmniHuman은 인상적인 시간 일관성 및 정체성 유지를 통해 비디오를 생성할 수 있으며, CelebV-HQ 테스트 세트에서 3.875의 이미지 품질 점수를 달성하여 현재 특수 모델을 능가합니다.
  • 산업 파괴적 잠재력: 임의 길이 비디오 생성 및 비인물 애니메이션과의 강력한 호환성과 같은 기능을 통해 OmniHuman-1은 비디오 편집, 영화 제작 등을 크게 변화시킬 준비가 되어 있습니다.
  • 아직 공개 릴리스 없음: 결과는 획기적이지만 ByteDance는 아직 공개 서비스, 다운로드 또는 오픈 소스 릴리스를 제공하지 않아 업계 전문가들이 향후 상용화를 간절히 기대하고 있습니다.

심층 분석

OmniHuman 프레임워크는 다중 모드 조건과 고급 확산 모델을 꼼꼼하게 통합하여 AI 기반 인물 애니메이션의 주요 도약을 나타냅니다. 다음은 기술 혁신에 대한 자세한 내용입니다.

다중 모드 조건 및 아키텍처

  • 확산 트랜스포머 백본: OmniHuman은 DiT(확산 트랜스포머) 아키텍처를 기반으로 구축되어 모델이 다양한 입력 모달리티를 효과적으로 처리하고 병합할 수 있습니다.
  • 다양한 구동 조건:
  • 오디오: wav2vec 모델을 활용하여 자세한 음향 특징을 추출합니다. 이러한 특징은 MLP를 통해 MMDiT 모듈의 숨겨진 레이어와 정렬된 다음 교차 주의 메커니즘을 사용하여 인접한 오디오 토큰과 결합됩니다.
  • 포즈: 포즈 가이더를 사용하여 포즈 히트맵 시퀀스를 풍부한 포즈 토큰으로 변환합니다. 이러한 토큰은 노이즈 잠재 표현과 함께 스택되면 모델이 정확한 시각적 정렬 및 동적 모델링을 수행할 수 있습니다.
  • 텍스트 및 모양: MMDiT 텍스트 분기의 텍스트 조건을 유지하면서 VAE로 참조 이미지를 인코딩하여 시각적 모양 신호가 자체 주의 메커니즘을 통해 효과적으로 통합되도록 합니다.

훈련 전략 및 데이터 활용

  • 3단계 훈련 프로세스:
  1. 기반 단계: 모델은 먼저 사전 훈련된 Seaweed 모델을 통해 텍스트 및 참조 이미지를 사용하여 비디오 및 이미지 콘텐츠를 생성하는 방법을 학습합니다.
  2. 중간 단계: 정확한 립싱크 및 표현력 있는 모션을 달성하려면 적당히 고품질의 데이터가 필요하므로 오디오 특징이 통합됩니다.
  3. 고급 단계: 데이터 세트의 약 13%인 최고 품질의 데이터는 배우가 미묘한 움직임을 완성하는 것과 마찬가지로 정확한 포즈 제어를 개선하는 데 사용됩니다.
  • 두 가지 주요 원칙:
  • 약한 조건 활용: 더 강한 조건 작업은 약한 조건 작업에서 사용할 수 있는 더 넓은 데이터 세트의 이점을 얻어 견고성을 보장할 수 있습니다.
  • 균형 잡힌 훈련 비율: 과적합을 방지하기 위해 더 높은 강도 조건은 더 낮은 비율로 훈련되어 사용 가능한 데이터의 효과적인 사용을 극대화합니다.

추론 및 성능

  • 적응형 추론 전략: OmniHuman은 시나리오에 따라 특정 조건(예: 오디오, 포즈)을 지능적으로 활성화 또는 비활성화하여 시간 및 정체성 일관성을 유지하면서 최적의 성능을 보장합니다.
  • 평가 메트릭: 프레임워크의 성능은 FID, FVD, q-align, Sync-C, HKC 및 HKV와 같은 메트릭을 사용하여 엄격하게 검증되었으며, 그 결과는 기존 단일 모드 모델보다 명확한 우위를 나타냅니다.

잠재적 영향

데이터 필터링 및 아키텍처 제한이라는 두 가지 과제를 해결함으로써 OmniHuman은 차세대 인물 애니메이션 모델의 길을 열어줍니다. 품질을 저하시키지 않으면서 불완전한 데이터를 처리하는 능력은 특히 주목할 만하며, 디지털 미디어 및 그 이상의 창의적인 워크플로를 변화시킬 것을 약속합니다. 현재 오픈 소스화되지는 않았지만 상용화는 엔터테인먼트, 광고 및 가상 콘텐츠 제작 부문에서 막대한 가치를 창출할 수 있습니다.


알고 계셨습니까?

  • 배우 훈련 비유: OmniHuman 훈련 프로세스는 전문 배우의 단계별 개발과 유사합니다. 광범위한 대본 해석(텍스트 및 이미지)으로 시작하여 음성 조절을 거쳐 정확한 신체 표현으로 마무리됩니다.
  • 방대한 데이터 활용: 이 모델은 무려 18.7K 시간의 인물 관련 비디오 데이터로 훈련되었으며, 고품질 및 저품질 소스 모두에서 학습할 수 있는 능력을 보여줍니다.
  • 다중 모드 마법: OmniHuman은 텍스트, 오디오, 포즈 및 시각적 참조 입력을 하나의 모델로 혼합할 수 있는 최초의 프레임워크 중 하나이며, AI 기반 애니메이션에 대한 새로운 표준을 설정합니다.
  • 거의 사진처럼 사실적인 표현: 데모 비디오에 따르면 OmniHuman에서 생성된 콘텐츠는 너무 사실적이어서 실제 인물 영상과 구별하기 거의 불가능합니다. 이는 사실상 모든 비디오가 AI로 생성될 수 있는 미래를 암시합니다.
  • 산업 파괴: 임의 길이 비디오 생성(현재 최대 30초)에 대한 프레임워크 지원과 다양한 스타일(사실적인 인물 애니메이션에서 의인화된 만화에 이르기까지)을 처리하는 유연성은 영화 제작 및 디지털 편집에 혁명을 일으킬 수 있습니다.
  • 진정성을 위한 비밀 코드: AI 생성 콘텐츠가 보편화되는 시대에 전문가들은 불법적인 목적으로 이러한 새로운 기술을 부적절하게 사용하는 것을 경고합니다.

자세한 기술 세부 사항을 살펴보는 데 관심이 있는 분들을 위해 전체 논문 및 프로젝트 세부 정보는 공식 OmniHuman Lab GitHub.io 페이지에서 찾을 수 있습니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요