AI 혁명: Cambrian-1이 실제 세계 정복을 위한 시각 중심 멀티모달 언어 모델 공개

AI 혁명: Cambrian-1이 실제 세계 정복을 위한 시각 중심 멀티모달 언어 모델 공개

작성자
Nikolai Sidorov
6 분 독서

Cambrian-1: 비전 중심 접근법을 통한 멀티모달 LLM의 개척

뉴욕 대학교의 연구진이 비전 중심 접근법을 우선시하는 획기적인 멀티모달 대형 언어 모델(MLLM) 제품군인 Cambrian-1을 소개했습니다. 송성방, 엘리스 브라운, 펑하오 우 등의 전문가 팀이 이끄는 이 프로젝트는 언어 모델과 시각 표현 학습 사이의 기존 격차 해소에 주목합니다. 2024년 6월 24일에 공개된 이 릴리스에는 모델 가중치, 오픈소스 코드, 데이터세트, 모델 훈련 및 평가를 위한 포괄적인 레시피가 포함되어 있습니다. Cambrian-1은 첨단 시각적 표현 기술을 통한 감각적 기반 강화에 중점을 두어 실제 시나리오에서 MLLM의 역량을 높이고자 합니다.

주요 내용

  1. 비전 중심 설계: Cambrian-1은 MLLM에서 비전 구성 요소를 우선시하여 언어 모델과 시각 표현 학습 사이의 격차를 해소합니다.
  2. 포괄적 벤치마킹: CV-Bench라는 새로운 비전 중심 벤치마크를 소개하여 MLLM의 2D 및 3D 이해도를 평가합니다.
  3. 고급 커넥터: 공간 비전 집계기(SVA)는 고해상도 비전 기능을 LLM과 역동적으로 통합하여 시각적 기반을 강화하면서도 토큰 수를 줄입니다.
  4. 고품질 데이터 큐레이션: 공개적으로 사용 가능한 소스에서 균형 잡히고 고품질의 시각적 지시 미세 조정 데이터를 강조합니다.

분석

Cambrian-1은 비전 중심 접근법에 중점을 둠으로써 멀티모달 LLM의 설계와 평가에 있어 큰 변화를 나타냅니다. 기존에는 비전과 언어 모델의 통합이 시각적 표현 학습에 대한 종합적인 연구 부족으로 저해되어 왔습니다. Cambrian-1은 이 문제를 해결하기 위해 자기 지도 학습, 강력한 지도 학습, 하이브리드 모델 등 다양한 실험 설정을 통해 20여 개의 비전 인코더를 평가합니다.

CV-Bench의 도입은 기존 벤치마크의 한계를 해결하기 위해 전통적인 비전 과제를 시각적 질문 답변(VQA) 형식으로 전환합니다. 이 접근법은 MLLM에 대한 강력한 평가 프로토콜을 제공하여 모델이 실제 시나리오에서 발견되는 다양한 지각 과제에 시험되도록 합니다.

더욱이 공간 비전 집계기(SVA)는 LLM과 비전 기능의 통합을 향상시킵니다. 고해상도 시각 정보를 유지하면서도 토큰 수를 줄임으로써 SVA는 모델이 시각적 기반을 필요로 하는 과제에서 보다 나은 성능을 발휘할 수 있도록 합니다.

이러한 발전을 지원하기 위해 Cambrian-1에는 데이터 소스를 균형 있게 조정하고 분포 비율을 조절한 Cambrian-10M이라는 잘 큐레이션된 데이터세트가 포함되어 있습니다. 이 큐레이션된 데이터세트는 지시 미세 조정 과정에서 중요한 역할을 하며, 모델이 "답변 기계 현상"과 같은 문제를 해결하고 다양한 과제에 걸쳐 더 나은 성과를 내도록 합니다.

재미있는 사실

  • Cambrian-1의 이름은 약 5억 4100만 년 전 대부분의 주요 동물 문이 출현한 "캄브리아기 대폭발"에서 영감을 얻었습니다. 이는 진화적 진보에서 비전의 중요성을 강조하며, MLLM 발전을 위해 비전에 중점을 두는 Cambrian-1과 유사합니다.
  • 이 프로젝트는 GitHub와 Hugging Face 같은 플랫폼에 모델 가중치와 자세한 훈련 레시피를 공개함으로써 협력적인 연구 환경을 조성합니다.
  • 공간 비전 집계기(SVA)는 토큰 수를 줄일 뿐만 아니라 공간 구조를 유지하여 모델이 복잡한 시각 장면을 보다 잘 이해할 수 있도록 합니다.

Cambrian-1은 멀티모달 학습 분야에서 이정표를 세운 프로젝트로, 대형 언어 모델에서 시각적 표현을 향상시키는 포괄적이고 개방적인 접근법을 제공합니다. 이 이니셔티브는 MLLM 개발을 위한 새로운 표준을 제시할 뿐만 아니라 멀티모달 시스템과 시각적 표현 학습의 미래 발전을 이끌 것입니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요