DeepSeek, 혁신적인 다중 모드 AI 기술 Janus-Pro와 JanusFlow 출시

작성자
H Hao
9 분 독서

DeepSeek, Janus-Pro와 JanusFlow 공개: 멀티모달 AI 이해 및 생성의 새로운 시대

DeepSeek는 최첨단 시각 멀티모달 모델인 Janus-ProJanusFlow를 출시하며 인공지능의 한계를 또 한 번 뛰어넘었습니다. 이 모델들은 멀티모달 이해 및 생성에서 전례 없는 기능을 제공하며 AI 분야에 혁명을 일으킬 것으로 예상됩니다. 설날 전략적으로 출시된 이 혁신은 특히 Twitter와 같은 플랫폼에서 주요 AI 전문가들이 소식을 공유하며 기술 커뮤니티 전반에 걸쳐 큰 기대와 논의를 불러일으켰습니다.

Janus-Pro: 멀티모달 이해 및 생성의 재정의

향상된 성능을 위한 시각적 인코딩 분리

Janus-Pro는 뛰어난 효율성으로 멀티모달 이해 및 생성 작업을 모두 처리하도록 설계된 통합 프레임워크입니다. 가장 큰 특징 중 하나는 시각적 인코딩 분리로, 모델이 이해 및 생성 작업을 독립적으로 처리할 수 있도록 합니다. 이 혁신적인 접근 방식은 단일 인코더를 두 가지 작업 모두에 사용할 때 발생하는 기능적 충돌을 제거하여 전반적인 성능을 향상시킵니다.

통합 Transformer 아키텍처

이 모델은 다양한 멀티모달 작업을 관리하기 위해 단일 Transformer 아키텍처를 사용합니다. 이는 설계를 단순화할 뿐만 아니라 확장성도 향상시킵니다. 통합 아키텍처를 통해 Janus-Pro는 시각적 질문 답변부터 이미지 자막 생성까지 다양한 애플리케이션에 쉽게 적용할 수 있습니다.

뛰어난 성능 지표

Janus-Pro는 여러 벤치마크에서 탁월한 성능을 보여주었습니다. 예를 들어, Janus-Pro-7B 모델은 GenEval 및 DPG-Bench 테스트에서 OpenAI의 DALL-E 3 및 Stable Diffusion을 능가했습니다. GenEval에서 **전체 정확도 80%**라는 놀라운 결과를 달성하여 DALL-E 3의 67%와 Stable Diffusion 3 Medium의 74%를 넘어섰습니다. DPG-Bench에서는 84.19점을 기록하며 텍스트-이미지 지시 사항 준수 작업의 새로운 기준을 세웠습니다.

기술 사양

  • 시각적 인코더: 복잡한 이미지 세부 정보를 포착하기 위해 384x384 해상도 입력을 지원하는 SigLIP-L을 사용합니다.
  • 생성 모듈: 더욱 정교한 이미지 생성을 위해 16의 다운샘플링 비율을 가진 LlamaGen 토크나이저를 사용합니다.
  • 기본 아키텍처: DeepSeek-LLM-1.5b-base 및 DeepSeek-LLM-7b-base를 기반으로 구축되어 안정적인 기반을 제공합니다.

JanusFlow: 멀티모달 통합 간소화

혁신적인 아키텍처

JanusFlow는 최첨단 생성 모델 방식인 Rectified Flow를 자동 회귀 언어 모델과 통합하여 최소한이면서도 강력한 아키텍처를 도입합니다. 이 통합을 통해 복잡한 아키텍처 조정 없이도 대규모 언어 모델 프레임워크 내에서 원활하게 훈련할 수 있습니다.

뛰어난 이미지 생성

이 모델은 Rectified Flow와 SDXL-VAE의 결합으로 고품질 이미지 생성에 탁월합니다. 384x384 해상도 출력을 지원하므로 디지털 아트부터 실시간 비전 시스템까지 다양한 애플리케이션에 적용할 수 있습니다.

유연성 및 확장성

JanusFlow는 여러 작업과 확장을 지원하도록 설계되어 매우 유연하고 확장 가능합니다. 간소화된 아키텍처 덕분에 멀티모달 AI의 한계를 뛰어넘고자 하는 연구자와 개발자에게 적합한 선택입니다.

기술 사양

  • 시각적 인코더: 세부적인 이미지 포착을 위해 SigLIP-L을 사용합니다.
  • 생성 모듈: 향상된 이미지 품질을 위해 Rectified Flow와 SDXL-VAE를 결합합니다.
  • 기본 아키텍처: 최적의 성능을 위해 사전 훈련되고 감독된 미세 조정 EMA 체크포인트를 통합한 DeepSeek-LLM-1.3b-base를 기반으로 합니다.

성능 요약

모델 이름멀티모달 이해이미지 생성유연성 및 확장성
Janus-Pro전문 모델 능가고품질, 다중 장면매우 유연한 통합 설계
JanusFlow언어 모델과 생성 흐름의 효율적인 융합고품질, 384x384 해상도최소한, 매우 유연

Janus-Pro 및 JanusFlow 시작하기

두 모델 모두 오픈소스로 제공되므로 개발자는 다양한 애플리케이션에서 이를 탐색하고 배포할 수 있습니다. 자세한 자습서와 예제는 각 GitHub 저장소에서 확인할 수 있습니다.

심층 분석

성능 분석

Janus-Pro-7B는 멀티모달 이해 및 텍스트-이미지 생성에서 새로운 벤치마크를 설정했습니다. TokenFlow-XL(13B 매개변수) 및 MetaMorph와 같은 더 큰 모델을 능가하는 MMBench에서 79.2점을 기록했습니다. GenEval에서 80%의 정확도DPG-Bench에서 84.19점은 복잡한 작업 처리 능력을 보여줍니다.

고유한 기여

  • 시각적 인코딩 분리: 이 설계는 작업 충돌을 방지하여 이해와 생성 모두를 향상시킵니다.
  • 최적화된 훈련 전략: 개선된 리소스 할당 및 고품질 합성 데이터는 성능을 크게 향상시켰습니다.
  • 확장성: 이 모델은 1B에서 7B 매개변수까지 견고한 성능을 보여주어 광범위한 애플리케이션에 대한 잠재력을 나타냅니다.

한계 및 향후 방향

Janus-Pro는 많은 분야에서 탁월하지만, 입력 해상도(384x384) 제한 및 세부적인 부분에서의 약간의 부족 등의 과제가 남아 있습니다. 이는 향후 개선해야 할 영역이지만 모델의 전반적인 성공을 깎아내리지는 않습니다.

AI 개발에 미치는 영향

Janus-Pro와 JanusFlow는 콘텐츠 생성, 실시간 비전 시스템, 대화형 에이전트와 같은 분야에서 특히 AI 분야에서 중요한 발전을 나타냅니다. 효율성과 확장성으로 인해 광범위한 애플리케이션에 적용 가능하여 첨단 AI 기술의 대중화에 기여할 수 있습니다.

이전 모델과의 비교

DeepSeek의 이전 모델인 R1과 V3도 영향력이 있었지만, Janus-Pro와 JanusFlow는 다양한 멀티모달 작업 전반에서 최첨단 결과를 달성하여 새로운 기준을 설정했습니다. 이는 DeepSeek의 포트폴리오와 더 넓은 AI 분야에서 중요한 발전으로 자리매김합니다.

결론

DeepSeek의 Janus-Pro와 JanusFlow는 단순한 업데이트가 아닌, 멀티모달 AI에서 가능한 것을 재정의하는 혁신적인 모델입니다. 혁신적인 아키텍처, 뛰어난 성능, 광범위한 적용 가능성으로 이 모델들은 차세대 AI 발전을 주도할 것입니다. 특히 중국과 미국 간의 글로벌 AI 경쟁이 치열해지는 가운데, DeepSeek의 기여는 중국 AI 혁신의 성장하는 능력을 보여줍니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요