구글 디프마인드의 플루이드: 연속 토큰을 이용한 AI 이미지 생성의 혁신
구글 디프마인드 연구자들이 연속 토큰과 무작위 생성 방식을 사용하여 최첨단 성능을 달성하는 혁신적인 텍스트-이미지 생성 모델인 플루이드를 공개했습니다. 2024년 10월에 발표된 이번 연구는 자가 회귀 이미지 생성에서 큰 발전을 보여주며, AI 시각 콘텐츠 생성의 전통적인 접근법에 도전하고 있습니다.
무슨 일이 있었나요
구글 디프마인드의 연구팀은 MIT의 리지에 판과 다른 협력자들의 지도 아래, 자가 회귀 모델이 언어 처리만큼 시각 처리에 효과적으로 확장되지 못한 이유를 조사하는 광범위한 연구를 진행했습니다. 연구팀은 성능에 영향을 미치는 두 가지 중요한 요소를 발견했습니다: 토큰 표현(불연속 vs. 연속)과 생성 순서(무작위 vs. 고정).
광범위한 실험과 혁신을 통해 연구자들은 10.5B 매개변수를 가진 플루이드 모델을 개발하였고, 이는 MS-COCO 30K에서 제로샷 FID 점수 6.16이라는 기록을 달성했으며, GenEval 벤치마크에서 전체 점수 0.69를 기록했습니다. 이 성능은 DALL-E 3 및 스테이블 디퓨전 3을 포함한 이전의 최첨단 모델들을 초월하며, 연속 토큰과 무작위 생성의 결합 효과를 잘 보여줍니다.
주요 사항
연구 결과는 연속 토큰이 이미지 생성 작업에서 불연속 토큰보다 지속적으로 더 좋은 성능을 보이며, 시각적 품질과 이미지 정보 보존이 더 뛰어남을 보여줍니다. 이 접근 방식은 전통 시스템에서 사용되는 벡터 양자화 방법과 관련된 정보 손실을 없애줍니다.
무작위 생성 방식은 글로벌 이미지 구조를 처리하고 텍스트-이미지 정렬을 개선하는 데 특히 효과적임을 입증했습니다. 이 시스템은 여러 객체 생성 시나리오에서 우수한 성능을 보여 주며, 이전의 이미지 생성 모델에서의 한계를 해결했습니다.
가장 주목할 만한 점은, 검증 손실이 모델 크기와 함께 강력한 거듭 제곱 법칙을 보인다는 것입니다. 이는 언어 모델에서 관찰된 것과 유사하며, 이 스케일링 행동은 검증 손실과 평가 메트릭 간의 강한 상관관계를 보여주어, 더 큰 모델이 더욱 나은 결과를 낼 수 있음을 시사합니다.
심층 분석
연구는 연속 토큰 표현 방식이 전통적인 불연속 토큰화 방법보다 훨씬 더 뛰어난 성능을 제공한다는 것을 보여줍니다. PSNR은 불연속 모델에서 26.6에서 연속 모델에서 31.5로 증가하는 큰 향상이 있었습니다. 이는 이미지 품질 보존에서 중대한 발전을 나타냅니다.
생성 순서는 모델 성능에서 중요한 요소로 떠올랐습니다. 양방향 주의를 사용하는 무작위 생성은 생성 과정 중에 글로벌 구조를 조정할 수 있게 해 주며, 반면 고정 순서 생성은 복잡한 장면을 처리하는 데 한계를 보입니다. 이 차이는 모델 크기가 증가할수록 더욱 뚜렷해집니다.
연구에서 드러난 스케일링 역학은 흥미롭습니다. 모든 변형이 검증 손실에서 거듭 제곱 법칙을 보여주지만, 연속 토큰을 사용하는 모델만이 확장하면서 시각적 품질에서 일관된 향상을 유지합니다. 모델 크기와 생성 가능성 간의 강한 상관관계는 추가적인 확장이 더 나은 결과를 가져올 수 있음을 시사합니다.
구글 디프마인드의 플루이드 출시는 산업 관계자들 사이에서 다양한 반응을 불러일으키고 있으며, 많은 이들이 이를 텍스트-이미지 생성의 큰 도약으로 보고 있습니다. 전문가들은 플루이드의 연속 토큰 사용과 무작위 생성 방식이 독특하며 이미지 품질을 높이고 이전 모델의 주요 한계를 완화한다고 지적하고 있습니다. 세계경제포럼은 플루이드와 같은 발전이 교육, 미디어, 보건 의료와 같은 산업을 변화시키고 있지만, 동시에 윤리적 및 거버넌스의 도전 과제가 있다는 점을 강조합니다. WEF는 AI의 책임 있는 관리를 위한 프레임워크의 필요성을 강조하며, 플루이드와 같은 능력이 남용 및 잘못된 정보의 가능성을 확장할 수 있음을 경고하고 있습니다.
한편, AI 커뮤니티 내부에서는 이 분야의 급속한 발전에 대한 건강한 회의론이 존재합니다. 딥마인드의 공동 창립자 데미스 하사비스는 AI에 대한 자금의 급증이 과대선전을 유발할 수 있다는 우려를 표명했습니다. 그는 과장된 주장이 진정한 진전을 가릴 수 있으며, 종종 실망스러운 결과를 초래하는 급하게 출시된 AI 제품들을 지적했습니다. 이러한 우려에도 불구하고 하사비스는 플루이드와 같은 모델의 거대한 잠재력을 강조하며, 투자들이 단기적인 이익보다는 의미 있고 윤리적으로 개발된 기술에 집중되기를 바랐습니다. 이러한 두 가지 관점은 AI 산업의 빠른 발전에 대한 약속과 위험을 동시에 드러내며, 플루이드는 ongoing 논쟁의 초점이 되고 있습니다.
아셨나요
플루이드 시스템은 이미지당 1.571초, TPU v5를 사용하여 2048의 배치 크기로 이미지를 생성하는 탁월한 효율성을 보여줍니다. 모델의 아키텍처는 최대 34개의 변압기 블록을 포함하여 이미지 생성에 대한 계산 효율성이 크게 향상되었습니다.
이 시스템의 훈련 인프라는 WebLI 데이터 세트를 활용하고, 텍스트 처리를 위해 47억 개의 매개변수를 가진 T5-XXL 인코더를 사용합니다. 이 조합은 연속 토큰 모델링을 위한 독특한 확산 손실 접근 방식과 함께 놀라운 이미지 생성 성능을 가능하게 합니다.
가장 주목할 만한 점은 플루이드가 3억 6900만 개의 매개변수만으로도 최대 200억 개의 매개변수를 사용하는 이전 모델들, 예를 들어 파르티보다 더 뛰어난 성능을 가져온다는 점입니다. 이 효율성의 혁신은 시각 AI 시스템의 확장 방향에 대한 새로운 가능성을 제시하며, 비전과 언어 모델의 능력 간의 오랜 격차를 좁힐 수 있습니다.
이번 발전은 AI 이미지 생성의 중요한 이정표를 나타내며, 보다 효율적이고 고품질의 시각 콘텐츠 생성 시스템을 위한 새로운 가능성을 제공합니다. 연구는 연속 토큰과 무작위 생성의 결합이 이미지 생성의 미래에 중대한 영향을 미칠 것이라는 것을 강력히 시사하며, 이는 우리가 시각 AI 개발에 접근하는 방식을 혁신할 수 있습니다.