DeepSeek, DeepGEMM 출시: AI 컴퓨팅 경제를 바꾸는 오픈 소스 라이브러리

DeepGEMM: AI 연산 경제를 바꾸는 오픈 소스 라이브러리

DeepSeek, 일주일 만에 세 번째 오픈 소스 공개: 알아야 할 점

AI 효율성의 한계를 뛰어넘기 위한 과감한 행보로 DeepSeek는 이번 주에 세 번째 오픈 소스 프로젝트인 FP8 정밀도를 위해 설계된 경량 고성능 행렬 곱셈 라이브러리인 DeepGEMM을 공개했습니다. 이번 공개는 회사가 앞서 FlashMLA와 DeepEP를 공개한 데 이은 것으로, AI 인프라 분야에서 개방형 혁신에 대한 약속을 강화하는 것입니다.

DeepGEMM은 차세대 AI 워크로드의 핵심 요소인 NVIDIA의 Hopper GPU에 최적화되어 있습니다. 표준적인 밀집 **일반 행렬 곱셈(General Matrix Multiplications)**과 Mix-of-Experts 그룹화 GEMM을 모두 지원하므로 대규모 AI 모델의 추론 및 훈련을 가속화하는 데 중요한 도구입니다.

DeepGEMM이 중요한 이유

1. FP8: AI 효율성의 다음 단계

DeepGEMM은 AI 연산 효율성의 주요 발전인 FP8 정밀도 연산을 위해 설계되었습니다. 기존 AI 워크로드는 주로 FP16 및 BF16에 의존하지만 FP8은 더 높은 처리량과 감소된 메모리 대역폭 사용량을 제공하므로 대규모 AI 모델 확장에 이상적입니다.

그러나 FP8에는 본질적인 문제인 낮은 수치 정밀도가 있습니다. DeepGEMM은 CUDA 코어 2단계 누적을 도입하여 정확도 손실을 완화하면서 FP8의 속도 이점을 유지합니다. 이 혁신을 통해 DeepGEMM은 계산 오버헤드를 크게 줄이면서 CUTLASS와 같은 업계 표준 라이브러리가 설정한 성능 벤치마크와 일치하거나 능가할 수 있습니다.

2. 최소한의 복잡성으로 높은 성능

깊이 중첩된 템플릿과 과도한 추상화에 의존하는 많은 AI 연산 라이브러리와 달리 DeepGEMM은 설계상 간단하고 효율적입니다. 핵심 구현은 약 300줄의 CUDA 코드로 구성되어 있어 고도로 최적화되었을 뿐만 아니라 이해하고 수정하기도 쉽습니다.

3. Just-In-Time 컴파일을 위해 설계

DeepGEMM은 JIT 컴파일을 활용하여 기존 컴파일의 필요성을 없앱니다. 즉, 설치 시 사전 컴파일이 필요하지 않으므로 런타임에 커널을 컴파일할 수 있습니다. 이 접근 방식은 특정 하드웨어 구성에 따라 동적 최적화를 가능하게 하여 최대 효율성을 보장합니다.

4. 차세대 AI 모델을 위한 MoE 최적화

MoE 아키텍처는 비용 효율성을 유지하면서 효율적으로 확장할 수 있는 능력 때문에 AI에서 점점 더 인기를 얻고 있습니다. DeepGEMM은 다음을 구현하여 MoE 모델에 고유하게 최적화되었습니다.

연속 그룹화 GEMM, 토큰 시퀀스가 최적의 처리를 위해 그룹화됩니다.
마스크 그룹화 GEMM, 전문가 활성화가 희소한 경우에도 효율적인 계산이 가능합니다.

이러한 최적화는 DeepSeek-V3의 AI 모델을 훨씬 더 빠르고 비용 효율적으로 만들어 MoE 연산 성능에서 새로운 벤치마크를 설정합니다.

성능 벤치마킹

DeepSeek는 NVIDIA H800 SXM5 GPU에서 다양한 행렬 크기 및 워크로드에 걸쳐 DeepGEMM을 테스트했습니다. 결과는 설득력이 있습니다.

이전 구현에 비해 최대 2.7배의 속도 향상.
다양한 행렬 모양에서 일관되게 높은 TFLOPS(초당 테라 플로팅 포인트 연산).
효율적인 GPU 리소스 할당을 보장하는 뛰어난 메모리 대역폭 활용률.

DeepGEMM은 대부분의 경우에 탁월하지만 특정 행렬 모양은 추가 최적화의 여지가 있으며 DeepSeek는 GitHub를 통해 개발자가 개선 사항을 제공하도록 초대했습니다.

전략적 및 시장적 의미

1. DeepSeek는 AI API 가격 붕괴를 강요하고 있습니다.

DeepSeek는 가격 책정 기준을 무너뜨렸습니다. DeepSeek의 API 요금은 OpenAI의 요금의 1/10 수준으로, 이는 이미 AI 서비스 제공업체 간에 공황 상태를 야기했습니다. 이는 단순히 저렴한 가격에 관한 것이 아니라 시장 기대치를 재정의하는 것에 관한 것입니다.

DeepSeek의 모델 효율성 향상이 계속된다면 AI 인프라 제공업체는 클라우드 컴퓨팅 부문의 악명 높은 최저가 경쟁을 반영하여 잔혹한 가격 전쟁에 직면하게 됩니다. OpenAI, Anthropic 및 Cohere는 가격 책정에 맞추거나 타의 추종을 불허하는 가치로 프리미엄 제품을 정당화하는 것 외에는 선택의 여지가 거의 없으며, 이는 현재 단계에서 점점 더 어려워 보입니다.

2. NVIDIA의 독점은 약간 강화됩니다.

DeepGEMM이 Hopper GPU에 집중하면 고성능 AI 연산에서 NVIDIA의 입지가 강화되지만 그 의미는 두 가지입니다. 한편으로 이러한 최적화는 AI 운영의 총비용을 낮춤으로써 NVIDIA 하드웨어를 더욱 매력적으로 만들어 더 많은 플레이어가 해당 생태계를 선택하도록 장려합니다. 반면에 효율성 증가는 각 플레이어가 전체적으로 더 적은 GPU를 필요로 할 수 있다는 것을 의미하며, 이는 장기적으로 NVIDIA 하드웨어에 대한 전체 수요를 잠재적으로 감소시킵니다. DeepSeek 및 유사한 플레이어가 NVIDIA의 지배력에 도전하려면 보다 경쟁적인 환경을 조성하기 위해 AMD MI300 및 Intel Gaudi 가속기에 대한 지원을 확대해야 할 수도 있습니다.

3. MoE 모델이 미래이며 DeepSeek는 이를 알고 있습니다.

MoE에 최적화된 연산을 향한 DeepSeek의 공격적인 추진은 업계의 변화를 의미합니다. 기존 아키텍처는 곧 비효율적인 유물로 간주될 것이며, MoE 모델은 훨씬 더 낮은 계산 비용으로 확장이 가능합니다. 적응하지 못하는 AI 회사는 도태될 위험이 있습니다.

DeepSeek는 분명히 MoE의 지배력에 베팅하고 있으며, MoE 워크로드 최적화에서 조기 리더십을 발휘한다는 것은 경쟁업체가 따라잡기 어려울 수 있음을 의미합니다. 주요 AI 연구소가 향후 12개월 동안 더 나은 MoE 구현을 위해 경쟁할 것으로 예상됩니다.

향후 전망: AI 연산의 다음 단계는 무엇일까요?

DeepGEMM은 단순한 라이브러리가 아니라 AI 연산 효율성의 철학적 변화를 나타냅니다. DeepSeek가 AI 인프라의 모든 측면을 체계적으로 최적화함에 따라 업계는 초고효율, 저비용 AI 모델로 나아가고 있습니다.

주목해야 할 주요 동향:

FP8 채택 확대: DeepGEMM이 선례를 세움에 따라 더 많은 AI 프레임워크가 FP8을 표준으로 통합할 수 있습니다.
추가 오픈 소스 기여: 커뮤니티는 DeepGEMM의 최적화를 NVIDIA Hopper를 넘어 더 많은 아키텍처로 확장할 수 있습니다.
AI 연산 민주화: DeepSeek의 최적화가 계속된다면 대규모 AI 모델 실행은 중견 기업과 스타트업이 감당할 수 있게 되어 거대 기술 기업의 지배력을 깨뜨릴 수 있습니다.

마지막 생각

DeepGEMM의 출시는 단순한 기술적 이정표 그 이상입니다. 이는 업계 전체에 영향을 미치는 전략적 움직임입니다. AI 연산을 더욱 효율적이고, 비용 효율적이며, 접근하기 쉽게 만듦으로써 DeepSeek는 AI 연구 및 배포의 경쟁 환경을 재편하고 있습니다.

이제 진짜 질문은 OpenAI, NVIDIA 및 기타 AI 강자들이 어떻게 반격할 것인가입니다. 적응하지 못하면 DeepSeek는 단순한 약자가 아니라 AI 경제 자체를 재정의할 수 있습니다.