알리바바, 구글 & OpenAI 겨냥: 보고 듣고 말하는 오픈소스 AI, Qwen2.5-Omni 공개
AI 기술 경쟁에 새로운 강자가 등장했습니다. 구글의 제미나이(Gemini)와 OpenAI가 이미지, 영상, 오디오, 텍스트를 모두 이해하는 멀티모달 기능으로 주목받는 동안, 알리바바의 Qwen 팀은 조용히 강력한 무기를 선보였습니다. 바로 Qwen2.5-Omni입니다. 이는 단순한 거대 언어 모델이 아니라, 우리가 세상을 인지하는 방식과 유사하게 설계된 "전방향" 멀티모달 AI입니다. 텍스트, 이미지, 오디오, 그리고 비디오를 처리하여 텍스트뿐만 아니라 실시간으로 합성된 음성으로 응답합니다.
가장 혁신적인 부분은 무엇일까요? 알리바바는 70억 개의 파라미터를 가진 버전인 Qwen2.5-Omni-7B를 Apache 2.0 라이선스로 오픈 소스화했습니다. 이로써 전 세계 개발자와 기업이 상업적으로 무료로 사용할 수 있는 정교한 멀티모달 AI 도구를 손에 넣을 잠재력이 생겼습니다. 이는 주요 경쟁사들의 폐쇄적인 정책에 도전하는 과감한 시도입니다.
내부 구조는? "Thinker-Talker" 아키텍처
알리바바는 기존 LLM에 단순히 감각 기능을 추가한 것이 아닙니다. 그들은 혁신적인 "Thinker-Talker" 아키텍처를 도입했습니다.
- Thinker (생각하는 자): 이 구성 요소는 뇌와 같은 역할을 합니다. 텍스트, 시각 자료, 소리와 같은 다양한 입력을 받아들여 맥락을 이해하고 핵심 텍스트 응답과 함께 고차원 의미 표현을 생성합니다. 오디오 및 시각 자료를 위한 전용 인코더를 사용하여 관련 특징을 추출합니다.
- Talker (말하는 자): 입과 성대처럼 기능하는 Talker는 Thinker로부터 실시간으로 의미 정보와 텍스트를 받습니다. 그런 다음 이를 개별 오디오 토큰으로 합성하여 작성된 텍스트와 함께 자연스러운 음성 스트림을 생성합니다.
이러한 엔드투엔드 설계는 실시간, 상호 작용 경험을 가능하게 하는 데 매우 중요합니다. 이 아키텍처는 청크 단위 입출력을 지원하며, 턴 기반 채팅보다는 화상 통화와 같은 느낌의 대화를 목표로 합니다.
또한 Qwen2.5-Omni는 **TMRoPE (Time-aligned Multimodal RoPE)**라는 새로운 위치 임베딩 기술을 통합했습니다. 이는 비디오 프레임을 공유 타임라인을 따라 해당 오디오 세그먼트와 정확하게 동기화하는 까다로운 문제를 해결합니다. 비디오 콘텐츠 내에서 동작과 음성을 정확하게 이해하는 데 매우 중요합니다.
성능 주장 vs. 실제 테스트: 인상적인 감각, 의심스러운 지능?
알리바바는 Qwen2.5-Omni가 통합 멀티모달 작업을 위해 설계된 벤치마크인 OmniBench에서 최첨단 결과를 달성했다고 주장합니다. 또한 구글의 Gemini 1.5 Pro와 같은 폐쇄형 경쟁 모델은 물론 자체 라인업의 전문 단일 모달 모델 (예: 시각의 경우 Qwen2.5-VL-7B, 오디오의 경우 Qwen2-Audio)보다 특정 작업에서 성능이 뛰어나다고 보고합니다.
공식 데모와 초기 사용자 테스트는 흥미롭지만 엇갈린 결과를 보여줍니다.
- 장점 – 멀티모달 능력:
- 시각: 시뮬레이션된 보안 피드 이미지에서 "의심스러운 행동"을 정확하게 식별하여 올바른 분류 및 추론을 제공했습니다.
- 비디오: 댄스 비디오가 주어졌을 때 댄서의 복장, 동작 및 설정에 대한 자세한 설명을 제공했습니다.
- 오디오: 업로드된 오디오 레시피에서 홍샤오로우(중국식 돼지고기 조림)를 만드는 단계를 정확하게 요약했습니다.
- 상호 작용: 동시 텍스트 및 자연스러운 음성 출력 (영/중 혼용 처리)이 빠르고 유연하여 진정한 대화형 느낌을 제공합니다. 데모에서는 AI가 주변 환경을 설명하고, 음성 안내 레시피 도우미 역할을 하고, 노래 초안을 비평하고, 스케치를 분석하고, 심지어 사진에서 수학 문제를 단계별로 가르치는 화상 통화를 보여줍니다.
- 단점 – 추론 오류 및 실제적 어려움:
- 기본 논리 오류: 고급 감각 처리에도 불구하고 7B 데모 모델은 간단한 추론 작업에서 어려움을 겪었습니다. "6.9와 6.11 중 어느 것이 더 큰가?"라는 질문에 6.9가 더 작다고 잘못 대답했습니다. "strawberry"에 'r'이 몇 개 있는지 묻자 두 개라고 답했습니다 (세 개가 있습니다). 이는 최소한 이 접근 가능한 버전에서는 지각 능력과 인지 추론 사이에 잠재적인 간격이 있음을 시사합니다.
- 높은 리소스 요구량: 모델을 로컬에서 실행하려는 일부 사용자는 상당한 VRAM 요구량을 보고했으며, 한 사용자는 21초 비디오에 대해 100GB VRAM 설정에서 메모리 부족 오류가 발생했다고 언급했습니다. 다른 사용자는 더 큰 이미지에서 오류가 발생하고 생성 시간이 느리다고 (응답당 몇 분) 언급하여 효율적인 배포에는 최적화 또는 특정 하드웨어 구성이 필요할 수 있음을 암시합니다.
- 언어 및 사용자 정의: 영어 및 중국어 음성 출력은 강력하지만 사용자는 스페인어 및 프랑스어와 같은 다른 언어의 제한 사항을 지적했습니다. 현재 음성 출력은 텍스트를 반영합니다. 특정 애플리케이션에는 더 많은 사용자 정의 옵션이 유용합니다. 비전문가 사용자를 위한 접근성도 개선이 필요하다고 지적되었습니다.
오픈 소스 전략: 멀티모달 AI의 민주화?
알리바바가 Qwen2.5-Omni-7B를 상업적으로 허용적인 Apache 2.0 라이선스로 오픈 소스화하기로 한 결정은 이번 릴리스에서 가장 전략적으로 중요한 측면일 것입니다.
- 장벽 낮추기: 스타트업, 연구원, 심지어 기존 회사까지 폐쇄형 모델과 관련된 과도한 API 비용이나 라이선스 비용 없이 고급 멀티모달 AI를 실험하고 배포할 수 있습니다. 이는 다음과 같은 분야에서 혁신을 촉진할 수 있습니다.
- 접근성 도구: 시각 장애인을 위해 세상을 설명할 수 있는 AI.
- 교육: 학생의 작업을 보고 질문을 들을 수 있는 대화형 튜터.
- 창작 지원: 여러 입력을 기반으로 시각 예술, 음악 또는 글쓰기를 비평하는 도구.
- 스마트 장치: 사용자가 언급한 스마트 안경 개념이나 가정용 도우미와 같은 웨어러블과의 보다 자연스러운 상호 작용을 가능하게 합니다.
- 경쟁 압력: 이 움직임은 OpenAI 및 Google의 비즈니스 모델에 직접적으로 도전하여 자체 최첨단 모델의 가격을 재고하거나 더 접근 가능한 버전을 제공하도록 강요할 수 있습니다. 이 움직임을 "진정한 OpenAI"라고 칭하는 사용자 댓글은 강력하고 개방적인 도구를 갈망하는 개발자 커뮤니티의 일부를 반영합니다.
- 생태계 구축: 알리바바의 경우 이는 Qwen 모델을 중심으로 개발자 생태계를 구축하고 더 넓은 채택을 촉진하며 모델이 호스팅되는 클라우드 플랫폼의 사용량을 늘리는 전략일 수 있습니다.
결론: 강력한 발걸음이지만 여정은 계속된다
Qwen2.5-Omni는 특히 다양한 입력과 실시간 텍스트-음성 출력을 새로운 아키텍처 내에서 원활하게 통합한 점에서 멀티모달 AI의 중요한 발전임이 분명합니다. 7B 모델의 오픈 소스화는 전 세계 개발자와 기업에 권한을 부여하여 AI 환경에 큰 영향을 미칠 수 있는 중요한 움직임입니다.
그러나 초기 테스트는 중요한 현실을 강조합니다. 고급 감각 인식이 자동으로 완벽한 추론이나 쉬운 배포로 이어지지는 않습니다. 관찰된 논리적 오류와 보고된 리소스 요구량은 극복해야 할 장애물이 여전히 있음을 보여줍니다.
기업과 투자자에게 Qwen2.5-Omni는 기회와 관찰 지점을 모두 나타냅니다. 기회는 혁신을 위해 이 강력하고 접근 가능한 도구를 활용하는 데 있습니다. 관찰 지점은 모델이 성숙하는 방식, 커뮤니티가 제한 사항을 해결하는 방식, 경쟁자가 이러한 오픈 소스 도전에 대응하는 방식을 지켜보는 것입니다. 알리바바는 강력한 카드를 꺼냈습니다. AI의 고위험 게임에서 다음 움직임이 간절히 기다려집니다.
참고 자료:
- 데모: https://huggingface.co/spaces/Qwen/Qwen2.5-Omni-7B-Demo
- Qwen 채팅 경험: https://chat.qwen.ai/
- GitHub: https://github.com/QwenLM/Qwen2.5-Omni
- Hugging Face 모델: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- 기술 보고서: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
- 블로그 게시물: https://qwenlm.github.io/blog/qwen2.5-omni/