블랙 포레스트 랩스, 최대 오픈소스 텍스트-이미지 모델 '플럭스' 공개
텍스트-이미지 생성 분야에서 선구적인 연구를 진행해 온 블랙 포레스트 랩스가 플럭스를 출시했습니다. 플럭스는 현재까지 가장 큰 최첨단(SOTA) 오픈소스 텍스트-이미지 모델로, 120억 개의 파라미터를 자랑합니다. 이 모델은 fal 플랫폼에서 공개되어 사용자들이 그 능력을 직접 체험할 수 있습니다. 플럭스의 출시는 이 분야의 주요 선도자인 스테이블 디퓨전의 원래 개발자들로 구성된 블랙 포레스트 랩스에게 큰 이정표가 되었습니다. 플럭스는 다양한 사용자 요구와 응용 분야에 맞춰 FLUX.1 [dev], FLUX.1 [schnell], FLUX.1 [pro] 세 가지 버전으로 제공되며, 뛰어난 창의적 및 기술적 성능을 목표로 합니다.
주요 내용
- 플럭스의 고급 기능: 플럭스는 향상된 이미지 품질, 사실적인 인체 해부학, 사실적인 표현과 함께 프롬프트 준수도를 개선했습니다. 높은 해상도로 놀라운 시각 효과를 생성할 수 있는 능력은 이 산업의 새로운 기준을 설정합니다.
- 모델 변형: 플럭스의 세 가지 버전—FLUX.1 [dev], FLUX.1 [schnell], FLUX.1 [pro]—은 사용자에게 다양한 선택지를 제공합니다. [dev] 버전은 오픈소스이지만 상업적 사용이 제한되며, [schnell] 버전은 더 빠른 오픈소스 모델로 Apache 2 라이선스를 가지고 있고, [pro] 버전은 API를 통해 이용 가능한 폐쇄 소스 모델입니다.
- 속도와 효율성: fal의 최첨단 추론 엔진과 통합되어 플럭스 모델은 이전 모델에 비해 최대 두 배 빠르게 실행되어 고요구 응용 분야에 이상적입니다.
분석
플럭스는 생성 AI, 특히 텍스트-이미지 합성 분야에서 큰 발전을 이루었습니다. 모델의 구조는 멀티모달리티와 병렬 확산 트랜스포머 블록의 하이브리드로, 로프(로테이션 포지셔널 임베딩)와 같은 고급 기술을 활용하여 성능과 하드웨어 효율성을 향상시킵니다. 이를 통해 플럭스는 고품질 이미지 생성뿐만 아니라 효율성을 유지하여 실시간 응용 분야에도 접근이 가능합니다. 플럭스의 복잡한 장면을 정확한 세부 사항과 함께 렌더링하는 능력, 예를 들어 레고 셰프 미니피규어가 노숙자를 위해 요리하거나 호랑이의 눈을 극도로 확대하는 것과 같은 장면은 그 다양성과 깊이를 보여줍니다.
또한, 플럭스의 출시는 광범위한 사용자들, 취미가부터 전문가까지, 그 능력을 탐색하고 활용할 수 있는 오픈 플랫폼인 fal을 통해 이루어졌습니다. 플럭스의 잠재력은 디지털 아트와 콘텐츠 제작부터 마케팅 및 엔터테인먼트에 이르기까지 다양한 산업을 뒤흔들 수 있습니다. 그 속도, 품질, 유연성은 소셜 미디어용 즉석 콘텐츠 생성이나 맞춤형 광고와 같은 새로운 응용 분야로 이어질 수 있습니다.
알고 계셨나요?
플럭스의 개발 팀에는 스테이블 디퓨전의 원래 개발자들이 포함되어 있다는 사실을 알고 계셨나요? 이러한 전문성을 바탕으로 그들은 생성 모델이 달성할 수 있는 한계를 개선하고 확장해 왔습니다. 또한 팀은 텍스트-비디오 모델의 잠재력을 탐색하고 있는데, 이는 플럭스가 이미지 생성을 변화시키는 것과 같은 방식으로 비디오 콘텐츠 제작을 혁신할 수 있습니다. 이러한 기술의 잠재적 응용 분야는 개인화된 비디오 콘텐츠부터 몰입형 가상 경험에 이르기까지 매우 다양합니다. 플럭스의 출시는 시작에 불과하며, 앞으로 더 많은 혁신적인 솔루션이 예고되어 있습니다.