완 기술 보고서: 알리바바의 AI 비디오 생성 오픈 소스 강자

Wan: 알리바바의 AI 비디오 생성 오픈소스 강자

2024년 초, OpenAI의 Sora는 할리우드에서나 가능했던 수준의 현실적인 비디오를 생성하며 AI 세상을 뜨겁게 달궜습니다. 경외감을 불러일으키는 모델이지만, Sora와 같은 모델은 폐쇄적인 환경에 갇혀 있어 오픈소스 커뮤니티는 따라잡기 위해 고군분투하고 있습니다. 하지만 이제 상황이 달라집니다.

알리바바 그룹이 개발한 Wan은 획기적인 오픈소스 비디오 파운데이션 모델 모음입니다. 상업용 비디오 생성기와 오픈소스 세계 사이의 간극을 메우도록 설계된 Wan은 단순한 기술적 성과가 아닌 의지의 표명입니다. 경쟁력 있는 성능, 광범위한 응용 분야, 놀라운 효율성(일반 소비자용 GPU에서도)을 갖춘 Wan은 오픈 생성 모델로 가능한 것을 재정의합니다.

병목 현상 타파: Wan을 만들어야 했던 이유

비디오 생성 기술은 빠르게 발전하고 있지만, 여전히 주요 과제들이 광범위한 사용과 혁신을 제한하고 있습니다. 대부분의 오픈소스 모델은 여전히 기본적인 텍스트-비디오와 같은 좁은 작업에 갇혀 있으며, 고화질 움직임, 다국어 지원 또는 효율적인 배포에 어려움을 겪고 있습니다. 반면, 상업용 모델은 막대한 사설 컴퓨팅 자원과 데이터를 바탕으로 빠르게 도약하고 있습니다.

Wan은 이러한 불균형을 해결하기 위해 만들어졌습니다. Wan은 개방적이고 확장 가능하며, 가장 중요한 것은 역동적이고 현실감 있으며 미묘한 차이를 느낄 수 있는 비디오를 생성할 수 있도록 설계되었습니다. 휘몰아치는 눈, 중국어와 영어로 된 읽기 쉬운 간판, 물리적 공간에서 자연스러운 카메라 움직임을 상상해 보세요. 이 모든 것은 재현 가능하고 모듈 방식이며 확장성을 고려하여 설계된 모델 모음으로 뒷받침됩니다.

핵심 엔지니어링: Wan의 차세대 아키텍처 내부

Wan의 핵심에는 시공간 VAE, 확산 트랜스포머, 다국어 텍스트 인코더의 세 가지 주요 구성 요소로 구성된 고도로 최적화된 아키텍처가 있습니다. 각 부분은 성능뿐만 아니라 실제 작업에서의 유용성을 위해 설계되었습니다.

Wan-VAE는 시간과 공간 모두에서 비디오를 압축하는 역할을 합니다. 3D 인과 변분 오토인코더로, 미세한 움직임 디테일을 유지하면서 비디오 데이터 볼륨을 250배 이상 줄입니다. 인과 컨볼루션과 영리한 특징 캐시 메커니즘을 사용하여 효율적인 장편 비디오 처리를 가능하게 합니다. 이는 대부분의 비디오 모델에서 어려운 부분이었습니다.

이를 보완하는 것은 이러한 압축된 잠재 특징을 처리하도록 설계된 순수 트랜스포머 모델인 확산 트랜스포머입니다. 전체 시공간 어텐션을 사용하여 비디오 콘텐츠의 시퀀스와 레이아웃을 모두 추론합니다. 여기서 인상적인 점은 보다 안정적이고 수학적으로 근거 있는 ODE 모델링을 선호하여 반복적인 노이즈 예측을 피하는 최신 훈련 방법인 Flow Matching을 사용했다는 것입니다.

사용자 프롬프트를 해석하고 생성을 안내하기 위해 Wan은 다국어 텍스트 인코더인 umT5를 사용합니다. 영어와 중국어 모두에서 복잡하고 설명적인 지침을 처리할 수 있으므로 모델이 단순히 비디오를 생성하는 것이 아니라 지시를 따르도록 보장합니다.

데이터 백본: Wan이 수조 개의 토큰으로 훈련된 방법

모델은 훈련된 데이터만큼 좋을 뿐이며, Wan의 데이터 파이프라인은 최신 데이터 세트 엔지니어링의 걸작입니다. 이 모델을 훈련하기 위해 수십억 개의 이미지와 비디오를 선별, 정리 및 보강했습니다.

이 과정은 워터마크 콘텐츠, 유해 콘텐츠, 지나치게 흐릿한 영상, 저해상도 클립을 제거하는 대규모 필터링으로 시작되었습니다. 그러나 Wan은 여기서 더 나아갔습니다. 부드럽고 표현력 있는 움직임과 균형 잡힌 정지 대 움직임 비율을 가진 비디오에 우선순위를 부여하기 위해 움직임 품질 분류기를 도입했습니다. 한편, 시각적 텍스트 파이프라인은 합성 및 실제 텍스트-이미지 샘플을 모두 처리하여 화면 텍스트를 읽기 쉽고 정확하게 렌더링하는 Wan의 능력을 향상시켰습니다.

각 프레임에서 무슨 일이 일어나고 있는지 모델이 더 깊이 이해할 수 있도록 알리바바는 Google의 Gemini 1.5 Pro와 경쟁하도록 훈련된 자체적인 촘촘한 캡션 시스템을 구축했습니다. 이 시스템은 카메라 각도, 객체 수, 움직임 유형, 장면 범주 등과 같은 요소를 레이블링하여 편집 및 개인화와 같은 다운스트림 작업을 위한 풍부하게 주석이 달린 훈련 세트를 만듭니다.

큰 모델, 작은 공간: Wan 1.3B 및 14B 소개

Wan은 13억 개의 매개변수 모델과 더 강력한 140억 개의 매개변수 플래그십의 두 가지 버전으로 제공됩니다. 둘 다 최대 480p의 고해상도 비디오를 생성할 수 있으며 동일한 강력한 아키텍처를 공유합니다.

진짜 놀라운 점은 무엇일까요? 13억 개의 매개변수 모델은 단 8.19GB의 VRAM으로 일반 소비자용 GPU에서 실행되도록 설계되었습니다. 이는 판도를 바꾸는 일입니다. 이는 아티스트, 개발자 및 소규모 스튜디오가 A100 랙 없이도 고품질 비디오 생성에 액세스할 수 있음을 의미합니다.

반대로 140억 개의 매개변수 모델은 경계를 넓히도록 설계되었습니다. 수조 개의 토큰으로 훈련된 이 모델은 장편 비디오 일관성, 현실적인 움직임, 복잡한 텍스트 프롬프트를 따르는 데 탁월합니다. 자연스러운 장면을 생성하든 스타일화된 애니메이션을 생성하든 140억 개의 매개변수 모델은 오픈소스가 최전선에서 경쟁력이 있을 수 있음을 증명합니다.

정면 대결: Wan이 경쟁 제품 대비 어떻게 수행되는가

벤치마크 평가와 직접적인 사용자 선호도 테스트 모두에서 Wan은 일관되게 1위를 차지합니다. Mochi 및 HunyuanVideo와 같은 오픈소스 모델을 능가할 뿐만 아니라 Runway Gen-3와 같은 상업적 거물과도 유리하게 경쟁합니다.

이는 단지 품질에 관한 것이 아니라 제어에 관한 것입니다. Wan은 미세한 카메라 움직임, 시각적 텍스트 렌더링, 프롬프트 팔로우, 스타일 다양성을 허용합니다. 이러한 모든 영역은 이전 모델이 어려움을 겪거나 수동 튜닝이 필요했던 영역입니다.

또한 제거 연구에서 Wan 팀은 흐름 일치 손실 함수와 촘촘한 캡션 전략이 강력한 정렬과 일관성을 달성하는 데 중추적인 역할을 했다는 것을 보여주었습니다. 이는 Wan을 단순히 좋은 것이 아니라 원칙적인 모델 모음으로 만듭니다. 모든 설계 선택이 검증되고 최적화됩니다.

Vbench의 모델 성능 점수.

모델 이름	품질 점수	의미론적 점수	총 점수
MiniMax-Video-01 (MiniMax, 2024.09)	84.85%	77.65%	83.41%
Hunyuan (오픈 소스 버전) (Kong et al., 2024)	85.09%	75.82%	83.24%
Gen-3 (2024-07) (Runway, 2024.06)	84.11%	75.17%	82.32%
CogVideoX1.5-5B (5s SAT 프롬프트 최적화) (Yang et al., 2025b)	82.78%	79.76%	82.17%
Kling (2024-07 고성능 모드) (Kuaishou, 2024.06)	83.39%	75.68%	81.85%
Sora (OpenAI, 2024)	85.51%	79.35%	84.28%
Wan 1.3B	84.92%	80.10%	83.96%
Wan 14B (2025-02-24)	86.67%	84.44%	86.22%

속도, 확장성 및 효율성: 실제로 사용할 수 있는 모델

Wan이 더욱 빛나는 곳은 훈련 및 추론 효율성입니다. 훈련 중에 알리바바는 정교한 2D 컨텍스트 병렬 처리 방식(Ulysses + Ring Attention)을 사용하여 GPU 간의 통신 오버헤드를 줄입니다. 추론 중에 샘플링 단계 간의 유사성을 활용하여 속도를 높이는 확산 캐싱을 도입했습니다.

FP8 양자화 및 활성화 오프로딩과 결합된 Wan은 실시간 또는 거의 실시간에 가까운 생성 속도를 달성합니다. 결과적으로 비디오 품질의 눈에 띄는 손실 없이 기존 모델보다 1.62배 빠른 속도 향상을 얻을 수 있습니다.

단순한 텍스트-비디오 그 이상: 지금 바로 사용할 수 있는 실제 응용 프로그램

Wan은 하나의 작업에 국한되지 않고 플랫폼입니다. 다음과 같은 모든 멀티모달 비디오 작업을 지원합니다.

이미지-비디오: 단일 이미지를 역동적인 장면으로 바꿉니다.
교육용 비디오 편집: 자연어 명령을 사용하여 클립을 수정합니다.
개인화된 생성: 아바타 또는 브랜드 콘텐츠를 위한 제로샷 사용자 지정.
카메라 제어: 텍스트를 사용하여 줌, 패닝 또는 시점을 조정합니다.
실시간 비디오 생성: 스마트 캐싱과 경량 모델 덕분입니다.
오디오 생성: 생성된 영상에 맞춰 소리를 동기화합니다.

영화 제작자, 교육자, 광고주 또는 게임 개발자이든 Wan은 필요에 맞게 조정할 수 있습니다.

완 기술 보고서: 알리바바의 AI 비디오 생성 오픈 소스 강자

Wan: 알리바바의 AI 비디오 생성 오픈소스 강자

병목 현상 타파: Wan을 만들어야 했던 이유

핵심 엔지니어링: Wan의 차세대 아키텍처 내부

데이터 백본: Wan이 수조 개의 토큰으로 훈련된 방법

큰 모델, 작은 공간: Wan 1.3B 및 14B 소개

정면 대결: Wan이 경쟁 제품 대비 어떻게 수행되는가

속도, 확장성 및 효율성: 실제로 사용할 수 있는 모델

단순한 텍스트-비디오 그 이상: 지금 바로 사용할 수 있는 실제 응용 프로그램

큰 그림: Wan이 연구 및 산업에 의미하는 것

앞으로의 계획: Wan의 로드맵

사용해 볼 수 있는 곳

요약

당신도 좋아할지도 모릅니다

뉴스레터 구독하기