완 기술 보고서: 알리바바의 AI 비디오 생성 오픈 소스 강자

작성자
CTOL Editors - Ken
16 분 독서

Wan: 알리바바의 AI 비디오 생성 오픈소스 강자

2024년 초, OpenAI의 Sora는 할리우드에서나 가능했던 수준의 현실적인 비디오를 생성하며 AI 세상을 뜨겁게 달궜습니다. 경외감을 불러일으키는 모델이지만, Sora와 같은 모델은 폐쇄적인 환경에 갇혀 있어 오픈소스 커뮤니티는 따라잡기 위해 고군분투하고 있습니다. 하지만 이제 상황이 달라집니다.

알리바바 그룹이 개발한 Wan은 획기적인 오픈소스 비디오 파운데이션 모델 모음입니다. 상업용 비디오 생성기와 오픈소스 세계 사이의 간극을 메우도록 설계된 Wan은 단순한 기술적 성과가 아닌 의지의 표명입니다. 경쟁력 있는 성능, 광범위한 응용 분야, 놀라운 효율성(일반 소비자용 GPU에서도)을 갖춘 Wan은 오픈 생성 모델로 가능한 것을 재정의합니다.


병목 현상 타파: Wan을 만들어야 했던 이유

비디오 생성 기술은 빠르게 발전하고 있지만, 여전히 주요 과제들이 광범위한 사용과 혁신을 제한하고 있습니다. 대부분의 오픈소스 모델은 여전히 기본적인 텍스트-비디오와 같은 좁은 작업에 갇혀 있으며, 고화질 움직임, 다국어 지원 또는 효율적인 배포에 어려움을 겪고 있습니다. 반면, 상업용 모델은 막대한 사설 컴퓨팅 자원과 데이터를 바탕으로 빠르게 도약하고 있습니다.

Wan은 이러한 불균형을 해결하기 위해 만들어졌습니다. Wan은 개방적이고 확장 가능하며, 가장 중요한 것은 역동적이고 현실감 있으며 미묘한 차이를 느낄 수 있는 비디오를 생성할 수 있도록 설계되었습니다. 휘몰아치는 눈, 중국어와 영어로 된 읽기 쉬운 간판, 물리적 공간에서 자연스러운 카메라 움직임을 상상해 보세요. 이 모든 것은 재현 가능하고 모듈 방식이며 확장성을 고려하여 설계된 모델 모음으로 뒷받침됩니다.


핵심 엔지니어링: Wan의 차세대 아키텍처 내부

Wan의 핵심에는 시공간 VAE, 확산 트랜스포머, 다국어 텍스트 인코더의 세 가지 주요 구성 요소로 구성된 고도로 최적화된 아키텍처가 있습니다. 각 부분은 성능뿐만 아니라 실제 작업에서의 유용성을 위해 설계되었습니다.

Wan-VAE는 시간과 공간 모두에서 비디오를 압축하는 역할을 합니다. 3D 인과 변분 오토인코더로, 미세한 움직임 디테일을 유지하면서 비디오 데이터 볼륨을 250배 이상 줄입니다. 인과 컨볼루션과 영리한 특징 캐시 메커니즘을 사용하여 효율적인 장편 비디오 처리를 가능하게 합니다. 이는 대부분의 비디오 모델에서 어려운 부분이었습니다.

이를 보완하는 것은 이러한 압축된 잠재 특징을 처리하도록 설계된 순수 트랜스포머 모델인 확산 트랜스포머입니다. 전체 시공간 어텐션을 사용하여 비디오 콘텐츠의 시퀀스와 레이아웃을 모두 추론합니다. 여기서 인상적인 점은 보다 안정적이고 수학적으로 근거 있는 ODE 모델링을 선호하여 반복적인 노이즈 예측을 피하는 최신 훈련 방법인 Flow Matching을 사용했다는 것입니다.

사용자 프롬프트를 해석하고 생성을 안내하기 위해 Wan은 다국어 텍스트 인코더인 umT5를 사용합니다. 영어와 중국어 모두에서 복잡하고 설명적인 지침을 처리할 수 있으므로 모델이 단순히 비디오를 생성하는 것이 아니라 지시를 따르도록 보장합니다.

Wan 아키텍처
Wan 아키텍처


데이터 백본: Wan이 수조 개의 토큰으로 훈련된 방법

모델은 훈련된 데이터만큼 좋을 뿐이며, Wan의 데이터 파이프라인은 최신 데이터 세트 엔지니어링의 걸작입니다. 이 모델을 훈련하기 위해 수십억 개의 이미지와 비디오를 선별, 정리 및 보강했습니다.

이 과정은 워터마크 콘텐츠, 유해 콘텐츠, 지나치게 흐릿한 영상, 저해상도 클립을 제거하는 대규모 필터링으로 시작되었습니다. 그러나 Wan은 여기서 더 나아갔습니다. 부드럽고 표현력 있는 움직임과 균형 잡힌 정지 대 움직임 비율을 가진 비디오에 우선순위를 부여하기 위해 움직임 품질 분류기를 도입했습니다. 한편, 시각적 텍스트 파이프라인은 합성 및 실제 텍스트-이미지 샘플을 모두 처리하여 화면 텍스트를 읽기 쉽고 정확하게 렌더링하는 Wan의 능력을 향상시켰습니다.

각 프레임에서 무슨 일이 일어나고 있는지 모델이 더 깊이 이해할 수 있도록 알리바바는 Google의 Gemini 1.5 Pro와 경쟁하도록 훈련된 자체적인 촘촘한 캡션 시스템을 구축했습니다. 이 시스템은 카메라 각도, 객체 수, 움직임 유형, 장면 범주 등과 같은 요소를 레이블링하여 편집 및 개인화와 같은 다운스트림 작업을 위한 풍부하게 주석이 달린 훈련 세트를 만듭니다.


큰 모델, 작은 공간: Wan 1.3B 및 14B 소개

Wan은 13억 개의 매개변수 모델과 더 강력한 140억 개의 매개변수 플래그십의 두 가지 버전으로 제공됩니다. 둘 다 최대 480p의 고해상도 비디오를 생성할 수 있으며 동일한 강력한 아키텍처를 공유합니다.

진짜 놀라운 점은 무엇일까요? 13억 개의 매개변수 모델은 단 8.19GB의 VRAM으로 일반 소비자용 GPU에서 실행되도록 설계되었습니다. 이는 판도를 바꾸는 일입니다. 이는 아티스트, 개발자 및 소규모 스튜디오가 A100 랙 없이도 고품질 비디오 생성에 액세스할 수 있음을 의미합니다.

반대로 140억 개의 매개변수 모델은 경계를 넓히도록 설계되었습니다. 수조 개의 토큰으로 훈련된 이 모델은 장편 비디오 일관성, 현실적인 움직임, 복잡한 텍스트 프롬프트를 따르는 데 탁월합니다. 자연스러운 장면을 생성하든 스타일화된 애니메이션을 생성하든 140억 개의 매개변수 모델은 오픈소스가 최전선에서 경쟁력이 있을 수 있음을 증명합니다.


정면 대결: Wan이 경쟁 제품 대비 어떻게 수행되는가

벤치마크 평가와 직접적인 사용자 선호도 테스트 모두에서 Wan은 일관되게 1위를 차지합니다. MochiHunyuanVideo와 같은 오픈소스 모델을 능가할 뿐만 아니라 Runway Gen-3와 같은 상업적 거물과도 유리하게 경쟁합니다.

이는 단지 품질에 관한 것이 아니라 제어에 관한 것입니다. Wan은 미세한 카메라 움직임, 시각적 텍스트 렌더링, 프롬프트 팔로우, 스타일 다양성을 허용합니다. 이러한 모든 영역은 이전 모델이 어려움을 겪거나 수동 튜닝이 필요했던 영역입니다.

또한 제거 연구에서 Wan 팀은 흐름 일치 손실 함수와 촘촘한 캡션 전략이 강력한 정렬과 일관성을 달성하는 데 중추적인 역할을 했다는 것을 보여주었습니다. 이는 Wan을 단순히 좋은 것이 아니라 원칙적인 모델 모음으로 만듭니다. 모든 설계 선택이 검증되고 최적화됩니다.

Vbench의 모델 성능 점수.

모델 이름품질 점수의미론적 점수총 점수
MiniMax-Video-01 (MiniMax, 2024.09)84.85%77.65%83.41%
Hunyuan (오픈 소스 버전) (Kong et al., 2024)85.09%75.82%83.24%
Gen-3 (2024-07) (Runway, 2024.06)84.11%75.17%82.32%
CogVideoX1.5-5B (5s SAT 프롬프트 최적화) (Yang et al., 2025b)82.78%79.76%82.17%
Kling (2024-07 고성능 모드) (Kuaishou, 2024.06)83.39%75.68%81.85%
Sora (OpenAI, 2024)85.51%79.35%84.28%
Wan 1.3B84.92%80.10%83.96%
Wan 14B (2025-02-24)86.67%84.44%86.22%

속도, 확장성 및 효율성: 실제로 사용할 수 있는 모델

Wan이 더욱 빛나는 곳은 훈련 및 추론 효율성입니다. 훈련 중에 알리바바는 정교한 2D 컨텍스트 병렬 처리 방식(Ulysses + Ring Attention)을 사용하여 GPU 간의 통신 오버헤드를 줄입니다. 추론 중에 샘플링 단계 간의 유사성을 활용하여 속도를 높이는 확산 캐싱을 도입했습니다.

FP8 양자화활성화 오프로딩과 결합된 Wan은 실시간 또는 거의 실시간에 가까운 생성 속도를 달성합니다. 결과적으로 비디오 품질의 눈에 띄는 손실 없이 기존 모델보다 1.62배 빠른 속도 향상을 얻을 수 있습니다.

Wan 지연 시간 개선
Wan 지연 시간 개선


단순한 텍스트-비디오 그 이상: 지금 바로 사용할 수 있는 실제 응용 프로그램

Wan은 하나의 작업에 국한되지 않고 플랫폼입니다. 다음과 같은 모든 멀티모달 비디오 작업을 지원합니다.

  • 이미지-비디오: 단일 이미지를 역동적인 장면으로 바꿉니다.
  • 교육용 비디오 편집: 자연어 명령을 사용하여 클립을 수정합니다.
  • 개인화된 생성: 아바타 또는 브랜드 콘텐츠를 위한 제로샷 사용자 지정.
  • 카메라 제어: 텍스트를 사용하여 줌, 패닝 또는 시점을 조정합니다.
  • 실시간 비디오 생성: 스마트 캐싱과 경량 모델 덕분입니다.
  • 오디오 생성: 생성된 영상에 맞춰 소리를 동기화합니다.

영화 제작자, 교육자, 광고주 또는 게임 개발자이든 Wan은 필요에 맞게 조정할 수 있습니다.


큰 그림: Wan이 연구 및 산업에 의미하는 것

학문적 관점에서 Wan은 보물창고입니다. 공개 코드, 공개 가중치 및 투명한 훈련 방법론을 통해 비디오 생성 커뮤니티에서 재현성에 대한 새로운 표준을 설정합니다. 연구자들은 모듈을 기반으로 구축하고, 평가를 실행하고, 새로운 도메인에 맞게 시스템을 미세 조정할 수 있습니다.

비즈니스 측면에서 Wan은 비용 효율적이고 고품질의 콘텐츠 생성의 문을 엽니다. 마케팅 비디오, 교육용 설명, 소셜 미디어 클립 - 이제 블랙박스 API에 프레임당 요금을 지불하지 않고도 이러한 콘텐츠를 대규모로 만들 수 있습니다. 이는 제작자, 스타트업 및 기업에 심각한 경쟁 우위를 제공합니다.


앞으로의 계획: Wan의 로드맵

Wan은 이미 사용 가능한 가장 유능한 비디오 생성 모델 중 하나이지만, 로드맵은 이제 시작일 뿐입니다. 팀은 1080p 및 4K 생성을 추진하고, 3D 인식을 통합하고, 더 많은 글로벌 접근성을 위해 다국어 지원을 확장할 계획입니다.

또한 모델이 실시간으로 사용자 피드백에 따라 비디오를 생성하는 대화형 스토리텔링과 의료, 교육 및 게임과 같은 산업 분야를 위한 플러그 앤 플레이 어댑터를 연구하고 있습니다.


사용해 볼 수 있는 곳

모든 것이 지금 바로 제공됩니다.

연구원, 아티스트, 스타트업 또는 단순히 호기심이 있든 Wan은 개방되어 있고 준비되어 있습니다.


요약

Wan은 현재까지 가장 강력한 오픈소스 비디오 생성 모음입니다. 최첨단 아키텍처, 엄격한 훈련 및 광범위한 접근성을 통해 폐쇄형 모델과 경쟁할 뿐만 아니라 오픈 AI가 달성할 수 있는 새로운 벤치마크를 설정합니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지