메타의 사라진 거인: 라마 4 베헤모스, 경쟁사들이 따라잡는 동안에도 여전히 실종 상태

스포트라이트 아래, 커튼 뒤: 거대 괴물의 실체는 아직

4월 5일에 터져 나온 축하 트윗, 기술 라이브 스트리밍, 유튜브 분석 영상들의 메아리 속에서, 하나의 진실이 조용히 그림자 속에 숨어 있었습니다. 바로 메타의 가장 중요한 대규모 언어 모델인 Llama 4 Behemoth가 아직 세상에 나오지 않았다는 것입니다. 전 세계가 Llama 4 Scout와 Maverick의 출시를 환호하는 동안, 메타의 주력 모델이자 OpenAI, Anthropic, Google과의 심화되는 경쟁에 대한 해답은 여전히 훈련 중이며, 어쩌면 예정보다 늦어지고 있을 수도 있습니다.

메타는 "새로운 멀티모달 AI 시대"의 개막을 선언했지만, 매끄러운 엔지니어링과 과감한 주장 뒤에는 내부자들이 점점 더 커지는 압박감을 느끼고 있다고 합니다. 경쟁사들이 차세대 오픈 웨이트 모델을 준비하는 동안, 앞서 나가기 위한 필사적인 경쟁이 벌어지고 있는 것입니다.

"저희의 지연 보도 이후, 무언가를 보여줘야 했습니다. 특히 경쟁사들의 새로운 출시가 저희의 새로운 아기를 죽이기 전에 말이죠. 뭐라도요." 메타 Gen AI 엔지니어가 오늘 저희에게 말했습니다.

이것이 바로 Llama 4에 숨겨진 이야기입니다.

출시된 모델: Scout와 Maverick

문서상으로 Llama 4 Scout와 Llama 4 Maverick의 출시는 오픈 소스 커뮤니티에 큰 의미를 갖습니다. 이 모델들은 전문가 혼합(Mixture-of-Experts) 아키텍처를 기반으로 구축되어 추론 효율성, 컨텍스트 길이, 멀티모달 기능의 최전선을 넓히고 있습니다. Scout는 16명의 전문가를 가진 민첩한 170억 개의 활성 파라미터 모델로, 오늘날 출시된 어떤 모델과도 비교할 수 없는 전례 없는 1천만 토큰 컨텍스트 창을 자랑합니다. 이는 단일 H100 GPU에서 실행되며 소규모 연구원, 개발자, 제품 팀을 대상으로 합니다.

반면 Maverick은 실용적인 모델입니다. 활성 크기는 동일하지만 128명의 전문가와 총 4천억 개의 파라미터로 구동됩니다. 이는 DeepSeek V3, Gemini 2.0 Flash, GPT-4o와 직접 경쟁하며 유사한 성능을 더 낮은 추론 비용으로 제공합니다.

한 AI 벤치마크 분석가는 "이것은 현재 시장에서 최고의 성능 대비 비용 비율입니다."라고 말합니다. "Llama 4 Maverick으로 구축하면 OpenAI 수준의 추론을 얻을 뿐만 아니라 GPU 사이클의 일부만으로도 가능합니다."

초기 지표는 이를 뒷받침합니다. Maverick은 이미 LM Arena에서 1417점을 기록하여 (CTOL 편집자 Ken: LM Arena를 그다지 신뢰하지 않지만 현재로서는 유일하게 사용할 수 있는 곳입니다) 최상위권에 속하지만 제한된 투표수로 인해 신뢰 구간이 넓습니다.

하지만 이러한 모델들이 인상적이기는 하지만, 메타가 원래 계획했던 헤드라인은 아니었습니다.

출시의 유령: Behemoth는 여전히 대기 중

Scout와 Maverick의 화려함 뒤에는 Llama 4 Behemoth가 눈에 띄게 빠져 있습니다. 2,880억 개의 활성 파라미터, 16명의 전문가, 그리고 총 크기가 2조 개의 파라미터에 육박하는 Behemoth는 GPT-o3 mini, Claude Sonnet 3.7, Gemini 2.5 Pro를 기술 벤치마크에서 능가하도록 설계되었습니다. 내부적으로는 메타의 첫 번째 "프론티어 모델"로 간주됩니다. LLM 순위를 바꿀 수 있는 원초적인 지능을 가진 모델입니다.

하지만 Behemoth의 훈련은 진행 중입니다. 출시일은 여전히 불분명합니다. 그리고 그 침묵은 많은 것을 말해줍니다.

"훈련 과정이 많은 리소스를 소모하고 있습니다."라고 메타 엔지니어는 말했습니다. "순조롭지 않습니다. 개인적으로 Gemini 2.5 Pro, Claude 3.7, O3 Mini와 비교해서 어느 정도 수준일지 확신할 수 없습니다."

메타는 MATH-500 및 GPQA Diamond와 같은 STEM 영역에서 벤치마크 승리를 암시했지만, 일반적인 또는 대화 성능에 대해서는 침묵하고 있습니다. 이는 많은 AI 분석가들에게 위험 신호입니다.

한 AI 인프라 회사의 수석 머신 러닝 엔지니어는 **"이 파라미터 수에서 리소스 병목 현상과 RL 파이프라인의 불안정한 확장"**이 지연의 원인일 수 있다고 추측했습니다. 다른 사람들은 전략을 지적합니다. "메타는 최고의 결과를 보장할 수 있을 때까지 Behemoth 출시를 위험하게 만들고 싶지 않았습니다. 너무 많은 것이 걸려 있습니다."

여기에는 명성뿐만 아니라 더 깊은 실존적인 내기도 포함됩니다. Llama 4 Behemoth가 Claude 또는 Gemini를 명확하게 능가하지 못하면 메타는 AI 지배 경쟁에서, 심지어 자신이 정의하는 데 도움을 준 오픈 소스 영역에서도 위치를 양보할 위험이 있습니다.

Maverick과 Scout: 우아한 엔지니어링, 전술적 플레이

Maverick과 Scout가 제공하는 것은 미드레인지 세그먼트에서 동급 최고의 혁신입니다. 메타의 MoE 아키텍처 선택은 오랫동안 조정하거나 배포하기에 너무 복잡하다고 무시되었지만, 이제는 비장의 카드가 되었습니다.

Scout에서 각 토큰은 16명의 전문가 중 한 명과 공유 레이어로만 라우팅되어 품질 저하 없이 컴퓨팅 효율성을 높입니다. 1천만 토큰 컨텍스트 길이는 단순한 기술적 경이로움이 아니라 패러다임 전환이 될 수 있습니다.

"전체 코드 저장소를 요약하거나, 다중 문서 추론, 또는 에이전트의 영구 메모리에 대해 이야기하는 것입니다."라고 한 연구원은 말했습니다. "이는 기능적 혁명입니다."

반면 Maverick은 4천억 개의 총 파라미터, 전문가 혼합 라우팅, 향상된 멀티모달 유창성을 자랑하며 그 효율성을 한 단계 끌어올립니다. 텍스트+이미지 입력을 지원하고 ChartQA 및 LiveCodeBench와 같은 시각 QA 및 코딩 벤치마크에서 우위를 점합니다.

그들의 훈련 과정도 똑같이 엄격했습니다. 진보적인 커리큘럼 기반 사후 훈련 파이프라인을 사용하여 메타는 "쉬운 데이터"를 제거하고, 내부 판단 모델을 사용하여 프롬프트를 필터링하고, 하드 전용 프롬프트 선택을 통해 강화 학습을 반복했습니다. 이는 성능 향상을 위한 잔혹하지만 효과적인 레시피입니다.

Scout와 Maverick은 모두 Behemoth에서 추출되었습니다. 메타는 이를 "코디스틸레이션"이라고 부릅니다. 하지만 그 교사 모델의 완전한 의미는 아직 알려지지 않았습니다.

주요 모델 대비 초기 테스트 실패: Llama 4 Maverick vs. Claude 3.7 Sonnet

초기 헤드투헤드 논리 테스트에서 메타의 Llama 4 Maverick은 Claude 3.7 Sonnet의 성능과 일치하는 데 어려움을 겪었습니다. 두 모델 모두 판타지 요소와 15개의 복잡한 단서가 포함된 맞춤형 4x7 매트릭스 추론 퍼즐을 푸는 과제를 받았습니다. Claude는 작업을 빠르게 완료하고 첫 번째 시도에서 일관되고 검증 가능한 솔루션을 제공했지만, Maverick은 여러 번의 연속이 필요했고 반복적으로 검증 확인에 실패했습니다. 처음에는 중복된 아티팩트를 캐릭터에 할당하고 나중에는 논리에 "치명적인 모순"이 있음을 인정했습니다. 여러 번의 수정 후에도 단서를 놓치고 새로운 모순을 도입했습니다. 테스터는 이모티콘과 약어를 포함한 Maverick의 비공식적인 스타일이 추론을 더욱 혼란스럽게 만들었다고 지적했습니다. 이것은 단 하나의 테스트일 뿐이지만, 특히 메타가 아직 주력 모델인 Behemoth를 출시하지 않았기 때문에 구조화된 문제 해결에서 Maverick의 신뢰성에 대한 초기 우려를 제기합니다. 또한 메타는 최고의 모델과 경쟁력을 유지하려면 확실한 Behemoth 모델을 출시해야 합니다.

별표가 있는 오픈 소스

메타는 오랫동안 Llama를 오픈 소스 AI의 선봉으로 포지셔닝해 왔습니다. 하지만 Llama 4의 라이선스는 비판을 받았습니다. "7억 MAU" 조항은 월간 활성 사용자 수가 7억 명이 넘는 모든 법인의 사용을 금지하여 사실상 대기업이 자유롭게 채택하는 것을 막고 있습니다.

한 AI 옹호자는 "이는 모순입니다."라고 말했습니다. "경쟁자를 위해 함정이 설치되어 있다면 오픈이라고 부를 수 없습니다."

더욱이 배포가 제한됩니다. 다운로드하려면 사용자는 양식을 작성하고, 시간 제한이 있는 링크를 받고, 48시간 이내에 5번의 다운로드가 허용됩니다.

이러한 인위적인 제약은 많은 개발자들을 좌절시키고 있습니다. Scout에 대한 초기 액세스 권한을 가진 커뮤니티 구축가의 말에 따르면 다음과 같습니다.

"제가 사용해 본 최고의 소형 모델입니다. 하지만 롤아웃은요? 오픈 소스 모델을 다운로드하는 것보다 여권 신청하는 것 같았습니다."

판돈: 2025년의 AI 전략

Behemoth의 부재가 왜 중요할까요?

왜냐하면 우리는 지금 오픈 웨이트 AI 전쟁의 시대에 접어들었기 때문입니다. 여기서 대기 시간, 토큰당 비용, 어려운 추론 작업에서의 성능은 제품의 실행 가능성뿐만 아니라 국가 전략을 정의합니다.

메타의 Scout와 Maverick 모델은 대부분의 지표에서 Gemini 2.0 Flash를 이겼습니다. 하지만 Claude 3.7 Sonnet Thinking 또는 Gemini 2.5 Pro는 이기지 못합니다. 오직 Behemoth만이 그것을 이길 가능성이 있습니다.

그리고 경쟁은 기다리지 않습니다.

DeepSeek는 5월 초까지 완전한 코드 추론 기능을 갖춘 차세대 오픈 웨이트 모델을 출시할 것이라는 소문이 있습니다. OpenAI는 최초의 오픈 웨이트 모델을 준비 중인 것으로 알려졌습니다.

메타가 이러한 출시 전에 Behemoth를 출시하지 못하면 Llama 4의 과대 광고 열기가 시장 지배력을 굳히기 전에 사라질 수 있습니다.

다음 단계: Behemoth, LlamaCon, 그리고 진정한 프론티어

메타는 4월 29일에 LlamaCon을 개최하여 더 많은 기술 세부 정보와 Behemoth의 출시 시기를 약속하고 있습니다. 업계 관측통들은 이것이 회사의 AI 로드맵에 중요한 순간이 될 수 있다고 말합니다.

그때까지 우리는 Scout와 Maverick을 가지고 있습니다. 기술적으로 훌륭하고 공개적으로 출시되었지만 전략적으로 임시적입니다.

한 분석가가 말했듯이:

"Llama 4는 메타의 첫 번째 움직임이지만, 최종 단계는 Behemoth에 달려 있습니다."

AI의 미래는 공개적으로 구축되는 것뿐만 아니라, 32K GPU에서 시간, 모든 토큰이 시간과의 싸움으로, 배후에서 훈련되고 있습니다.

요약:

Llama 4 Scout: 단일 H100 GPU에 맞는 170억 개의 파라미터, 1천만 컨텍스트 창 모델입니다. 컴팩트한 멀티모달 모델에 최고입니다.
Llama 4 Maverick: 더 크고 4천억 개의 파라미터 모델로 128명의 전문가를 가지고 있습니다. 인상적인 비용 성능으로 대부분의 지표에서 Gemini 2.0 Flash를 능가합니다.
Llama 4 Behemoth: 여전히 훈련 중입니다. 2조 개의 파라미터에서 Gemini 2.5 Pro, Claude 3.7, O3 Mini에 도전하는 것을 목표로 하지만 내부적인 의심에 직면해 있습니다.
Scout와 Maverisk는 중간 수준의 제품이며 Claude Sonnet 3.7 또는 Gemini 2.5 Pro와 같은 최고 모델을 이길 수 없습니다.
개방성 문제: 라이선스 제한 및 다운로드 게이팅은 오픈 소스 커뮤니티로부터 비판을 불러일으켰습니다.
4월 29일 LlamaCon: 메타가 마침내 Behemoth를 공개할 수 있을지, 그리고 기다릴 가치가 있을지에 모든 시선이 집중됩니다.

이야기는 끝나지 않았습니다. 하지만 지금은 무대가 설정되었습니다. Scout는 빠릅니다. Maverick은 강력합니다. 그리고 Behemoth는요? 여전히 그림자 속에 있고, 여전히 훈련 중이며, 여전히 불확실합니다.