ByteDance와 칭화대 연구진, 대규모 LLM 강화 학습 발전을 위해 DAPO 오픈 소스 공개

DAPO: 대규모 언어 모델을 위한 오픈 소스 강화 학습

오픈 소스 강화 학습으로 LLM 추론의 장벽을 허물다

더 똑똑한 대규모 언어 모델(LLM)을 만들기 위한 경쟁에서 업계는 주로 강화 학습을 사용하여 추론 능력을 향상시켜 왔습니다. 하지만 지속적인 문제점은 투명성이 부족하다는 것입니다. LLM을 위한 최첨단 RL 기술은 OpenAI나 DeepSeek과 같은 주요 AI 기업의 독점 시스템에 갇혀 있습니다. 이러한 비밀 유지는 혁신을 저해할 뿐만 아니라 연구자와 기업이 이러한 발전을 복제하거나 발전시키기 어렵게 만듭니다.

새로운 연구 노력인 **DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization)**는 LLM 추론을 위한 확장 가능한 RL 프레임워크를 완전히 오픈 소스화하여 이러한 상황을 바꾸는 것을 목표로 합니다. ByteDance Seed, 칭화대학교 AI 산업 연구소, 홍콩대학교가 공동 개발한 DAPO는 투명하고 고성능의 RL 시스템을 제공하며, 알고리즘뿐만 아니라 학습 코드와 엄선된 데이터 세트도 함께 공개합니다. 목표는 LLM 추론 RL을 대중화하고 AI 연구 및 산업 응용 분야의 발전을 가속화하는 것입니다.

DAPO의 주요 혁신

DAPO의 핵심은 LLM의 추론 능력을 향상시키는 새로운 RL 접근 방식입니다. 이 시스템의 효율성은 AIME 2024 수학 문제 데이터 세트에서 입증되었으며, Qwen2.5-32B 기본 모델을 사용하여 50점을 달성했습니다. 이는 더 적은 학습 단계로 이전 벤치마크를 능가하는 성능입니다.

1. 전체 강화 학습 시스템 오픈 소스화

대부분의 독점 모델과 달리 DAPO는 다음을 포함한 완전한 오픈 RL 학습 파이프라인을 제공합니다.

DAPO 알고리즘 – GRPO (Generalized Reinforcement Policy Optimization)를 기반으로 개선된 RL 방법입니다.
학습 코드 (verl 프레임워크) – LLM 학습을 위한 실용적이고 확장 가능한 RL 코드입니다.
엄선된 데이터 세트 – 수학적 추론 및 RL 학습을 위해 특별히 처리된 데이터 세트입니다.

2. 알고리즘 혁신: 4가지 주요 기술

DAPO는 LLM을 위한 RL 학습의 효율성과 안정성을 향상시키는 4가지 주요 기술 개선 사항을 통합합니다.

Clip-Higher: 기존 RL 모델은 극단적인 값의 변동을 피하기 위해 클리핑 기술을 사용하지만, 이는 종종 엔트로피 붕괴로 이어져 모델을 지나치게 결정적으로 만듭니다. DAPO는 하한 및 상한 클리핑 임계값을 분리하여 보다 다양한 토큰 생성을 장려하고 더 나은 탐색을 가능하게 합니다.
Dynamic Sampling: 많은 RL 학습 프로세스가 불필요한 프롬프트에 컴퓨팅 리소스를 낭비합니다. DAPO는 효과가 없는 프롬프트 (제로 그라디언트 샘플을 생성하는 프롬프트)를 필터링하여 각 학습 배치가 의미 있도록 하고 수렴을 가속화합니다.
Token-Level Policy Gradient Loss: 전체 응답을 단일 샘플로 취급하는 대신 DAPO는 토큰 수준에서 그라디언트를 할당하여 더 긴 추론 체인이 더 많은 가중치를 갖도록 합니다. 이는 복잡한 다단계 문제 해결에 특히 유용합니다.
Overlong Reward Shaping: 기존 모델은 긴 응답에 대해 가혹하게 페널티를 부여합니다. DAPO는 이 접근 방식을 개선하여 페널티를 동적으로 조정하여 가치 있는 정보의 갑작스러운 손실을 방지하고 보다 안정적인 학습을 유도합니다.

DAPO가 기존 모델보다 뛰어난 이유

1. 복잡한 추론 작업에서 더 높은 정확도

실험 결과 DAPO는 AIME 2024에서 50점을 달성하여 DeepSeek-R1-Zero-Qwen-32B의 점수인 47점을 능가했습니다. 이전 모델과 달리 DAPO는 절반의 학습 단계로 이러한 성능을 달성하여 효율성과 효과를 모두 입증했습니다.

2. 향상된 학습 효율성 및 안정성

엔트로피 붕괴, 보상 노이즈 및 비효율적인 샘플링과 같은 일반적인 RL 문제를 해결함으로써 DAPO는 학습을 간소화하여 고성능 LLM 개발에 필요한 컴퓨팅 비용을 줄입니다.

3. 완전한 재현성 및 오픈 소스 투명성

LLM 연구의 중요한 문제는 검증 가능하고 오픈 소스인 RL 방법이 부족하다는 것입니다. DAPO는 완전한 엔드 투 엔드 RL 학습 프레임워크를 제공하는 몇 안 되는 시스템 중 하나이므로 학술 연구원과 AI 스타트업이 작업을 복제하고 확장하기가 더 쉽습니다.

산업 및 비즈니스 영향

1. AI 연구 및 개발 가속화

최첨단 RL 학습 시스템을 사용할 수 있게 되면 수학적 추론, LLM 기반 튜터링 및 기타 고급 문제 해결 애플리케이션에 대한 연구를 획기적으로 가속화할 수 있습니다. 오픈 소스 접근성은 진입 장벽을 낮추어 AI 개발에 더 광범위한 참여를 촉진합니다.

2. LLM 비즈니스 애플리케이션 확장

자동화된 고객 지원에서 코딩 도우미 및 금융 모델링에 이르기까지 AI 기반 추론 작업에 집중하는 회사는 DAPO의 발전을 통해 이익을 얻을 수 있습니다. DAPO의 기술을 통합함으로써 기업은 산업별 문제에 맞춘 더욱 강력하고 비용 효율적인 AI 모델을 학습시킬 수 있습니다.

3. AI 학습 비용 절감

효율성 증가 및 학습 단계 감소를 통해 DAPO는 소규모 회사와 스타트업이 막대한 컴퓨팅 비용 없이 고성능 LLM을 학습시키는 것을 가능하게 합니다. 이는 기술 대기업을 넘어 고급 추론 AI의 상업화를 확대할 수 있습니다.

과제 및 고려 사항

DAPO는 획기적인 기여를 하지만 다음과 같은 특정 요소를 고려해야 합니다.

벤치마크 범위: 이 모델의 효율성은 수학 기반 데이터 세트인 AIME 2024에서 검증되었습니다. 더 넓은 적용 가능성을 확인하려면 다른 복잡한 추론 벤치마크 (예: MATH, GSM8K)에 대한 추가 평가가 필요합니다.
컴퓨팅 요구 사항: 효율성 개선에도 불구하고 RL을 사용한 LLM 학습에는 여전히 상당한 GPU 리소스가 필요합니다. DAPO는 장벽을 낮추지만 소규모 조직은 여전히 인프라 문제에 직면할 수 있습니다.
구현 복잡성: DAPO의 고급 기술, 특히 토큰 수준 정책 그라디언트 손실 및 과도한 보상 형성은 RL 원리에 대한 깊은 이해가 필요하므로 강화 학습에 익숙하지 않은 팀에게는 채택 문제가 발생할 수 있습니다.

오픈 소스 AI를 위한 게임 체인저

DAPO는 확장 가능하고 투명한 LLM 추론을 위한 강화 학습에서 중요한 도약을 나타냅니다. 연구팀은 완전하고 고성능의 RL 시스템을 오픈 소스화함으로써 학문적 지식을 발전시킬 뿐만 아니라 기업과 스타트업이 자체적인 정교한 AI 모델을 개발할 수 있도록 지원합니다.

LLM 추론 능력을 향상시키려는 투자자와 기업에게 DAPO는 희귀한 기회를 제공합니다. 고급 AI 모델 개발 비용과 복잡성을 모두 줄이는 완전한 접근 가능한 최첨단 RL 프레임워크입니다. AI 채택이 산업 전반에 걸쳐 가속화됨에 따라 DAPO와 같은 오픈 소스 혁신은 AI 기반 문제 해결의 미래를 형성하는 데 중요한 역할을 할 것입니다.