CogView4 오픈 소스 AI 모델, 텍스트-이미지 생성의 새로운 기준 제시

CogView4: 이미지 생성 AI 모델, 오픈 소스로 새 시대를 열다

AI가 만든 이미지, 이제 차원이 다르다

중국 베이징의 AI 기업인 ZhiPu AI가 텍스트를 이미지로 바꿔주는 최신 모델 CogView4(https://github.com/THUDM/CogView4)를 공개하고 오픈 소스로 풀었습니다. 60억 개의 파라미터와 한국어, 영어를 모두 지원하며, 업계 표준 성능 테스트에서 최고 수준을 보여주는 CogView4는 AI 이미지 생성 기술을 한 단계 끌어올렸다는 평가를 받고 있습니다.

특히, Apache 2.0 라이선스로 공개된 최초의 중국어 텍스트-이미지 모델이라는 점에서 의미가 큽니다. 이제 전 세계 개발자들이 OpenAI의 DALL-E 3나 MidJourney처럼 사용료를 내야 하는 모델 대신, 제약 없이 최첨단 기술을 이용할 수 있게 되었습니다.

CogView4, 뭐가 특별할까?

1. 똑똑한 의미 파악 능력

CogView4는 텍스트의 의미를 정확하게 이해하고 이미지로 표현하는 능력이 뛰어납니다. 이전 모델들은 복잡한 내용을 제대로 이해하지 못했지만, CogView4는 명령을 정확하게 따르도록 만들어졌습니다. 광고, 디자인, 디지털 콘텐츠 분야에서 일하는 전문가들에게 아주 유용한 도구가 될 것입니다.

2. 한국어, 영어 모두 OK

가장 큰 특징 중 하나는 한국어와 영어를 모두 지원한다는 점입니다. 대부분의 오픈 소스 모델은 영어를 주로 사용하지만, CogView4는 한국어와 영어 명령어를 모두 이해하므로 여러 언어를 사용하는 시장에서 사업을 하거나 콘텐츠를 만드는 사람들에게 특히 유용합니다.

3. 더 선명하게, 더 자세하게

CogView4는 최대 2048x2048 픽셀의 고해상도 이미지를 만들 수 있어 오픈 소스 모델 중 최고 수준의 품질을 자랑합니다. 또한, 프롬프트(명령어) 길이 제한이 1024 토큰으로 늘어나 (이전 버전은 224 토큰) 더 복잡하고 자세한 설명을 입력하여 이미지를 생성할 수 있습니다.

4. 자유로운 오픈 소스, Apache 2.0 라이선스

DALL-E 3는 소스 코드가 공개되지 않았지만, CogView4는 Apache 2.0 오픈 소스 라이선스로 제공됩니다. 즉, 개발자들이 모델을 자유롭게 수정하고, 통합하고, 배포할 수 있어 AI 연구와 상업적인 활용이 더욱 활발해질 것으로 기대됩니다.

앞으로 ControlNet, ComfyUI와 연동하고, 추가적인 튜닝 도구를 제공하여 사용자들이 더욱 다양하게 활용할 수 있도록 할 계획입니다.

성능은? 이미 최고 수준

1. DPG-Bench 1위

CogView4-6B는 DPG-Bench에서 1위를 차지했습니다. DPG-Bench는 AI 모델이 텍스트의 의미를 얼마나 잘 이해하고 명령을 따르는지를 평가하는 기준으로 사용됩니다. Stable Diffusion XL, PixArt-alpha 등 다른 유명 모델보다 복잡한 텍스트 명령어에 맞춰 이미지를 생성하는 능력이 뛰어납니다.

2. 다양한 평가 항목에서 좋은 성적

DPG-Bench 외에도 GenEval, T2I-CompBench 등 다양한 평가 항목에서 좋은 결과를 얻었습니다.

개체 수 세기 및 공간 추론
색상 표현 및 위치
여러 개체 간의 상호 작용
한국어 글자 렌더링

모델	DPG-Bench 점수	GenEval 점수	T2I-CompBench 점수
CogView4-6B	85.13	0.73	0.78
SD3-Medium	84.08	0.74	0.81
DALL-E 3	83.50	0.67	0.77
Janus-Pro-7B	84.19	0.80	0.51

투자자를 위한 고려 사항

1. 비싼 비용, 높은 장벽

CogView4를 사용하려면 고성능 컴퓨터가 필요합니다. A100 또는 RTX 4090 GPU (40GB VRAM 이상), 또는 최소 32GB RAM이 필요하므로 일반 사용자보다는 기업이나 연구 기관에 적합합니다.

🧐 투자자를 위한 정보: CogView4는 고사양 컴퓨터가 필요하기 때문에 8GB VRAM만 있어도 실행 가능한 Stable Diffusion처럼 일반 사용자들이 쉽게 사용할 수 있는 AI 그림 도구를 따라잡기는 어려울 수 있습니다. 기업 시장을 공략하는 것이 중요합니다.

2. 튜닝 도구 부족

CogView4는 오픈 소스이지만, DreamBooth나 LoRA 어댑터처럼 널리 사용되는 튜닝 방법을 아직 지원하지 않습니다. 따라서 특정 분야에 특화된 AI 이미지를 만들어야 하는 경우 (예: 브랜드 콘텐츠, 개인 아바타) 활용하기 어려울 수 있습니다.

🧐 투자자를 위한 정보: ZhiPu AI가 튜닝 도구를 제공한다면 스타트업이나 광고 회사에서 활용도가 크게 높아질 수 있습니다. 그때까지는 뛰어난 튜닝 기능을 갖춘 유료 모델들이 경쟁력을 유지할 것입니다.

3. 유료 모델과의 경쟁

CogView4의 가장 큰 장점은 오픈 소스라는 점입니다. DALL-E 3는 소스 코드가 공개되지 않았고, MidJourney는 사용료를 내야 합니다. 따라서 무료로 사용할 수 있는 고품질 AI 이미지를 찾는 개발자들에게 CogView4가 매력적인 선택지가 될 수 있습니다.

🧐 투자자를 위한 정보: 오픈 소스라는 장점은 전 세계 AI 연구 및 활용을 촉진할 수 있으며, 특히 중국과 개발도상국에서 유료 AI 도구의 규제 및 비용 장벽을 극복하는 데 도움이 될 수 있습니다.

AI 오픈 소스 혁신의 강력한 움직임

CogView4는 최첨단 기능과 자유로운 오픈 소스 라이선스를 결합하여 텍스트-이미지 AI 분야에서 큰 진전을 이루었습니다. 접근성 문제가 단기적으로는 널리 사용되는 데 제약이 될 수 있지만, 한국어 및 영어 지원, 고해상도, 업계 최고 수준의 성능은 CogView4를 주목해야 할 모델로 만들었습니다.

투자자에게 중요한 질문은 다음과 같습니다.

ZhiPu AI가 튜닝 기능을 제공할 것인가?
컴퓨터 사양을 낮춰 더 많은 사용자를 확보할 수 있을까?
유료 AI 모델 경쟁자들은 어떻게 대응할까?

AI 이미지 생성 분야가 발전함에 따라 CogView4는 기술 혁신이자 유료 모델 중심의 시장에 대한 도전으로 평가받고 있습니다. 기업 시장과 일반 사용자 시장 사이의 간격을 얼마나 잘 좁히느냐에 따라 CogView4의 성공 여부가 결정될 것입니다.