DeepSeek-R1 논문 기술 검토: 추론 AI의 재정의

1. 소개 및 전반적인 인상

DeepSeek-R1은 대규모 언어 모델(LLM) 훈련에 대한 새로운 접근 방식으로 많은 주목을 받고 있습니다. 이전 버전인 DeepSeek-V3와 비교하여, 이 새로운 연구는 실험 및 이론적 설계에서 "더 간단하면서도 더 우아한" 방식을 강조합니다.

DeepSeek-R1을 평가하면서 많은 연구자들은 AlphaGo의 발전, 특히 R1-Zero → R1 훈련 과정을 떠올렸습니다. DeepSeek-R1은 OpenAI-o1-1217과 같은 최고 수준의 모델을 능가하거나 동등한 성능을 보이며 다양한 어려운 벤치마크에서 높은 성능을 보이는 것이 특징입니다. 또한, 추출된 32B 버전(DeepSeek-R1-32B)은 OpenAI-o1-mini에 필적하는 인상적인 결과를 제공했습니다.

높은 수준에서 볼 때, DeepSeek-R1은 처음부터 대규모 지도 미세 조정(SFT)에 의존하지 않고도 강력한 추론 능력을 달성할 수 있음을 보여줍니다. 이 모델은 대신 **경량 SFT와 강화 학습(RL)**을 결합하고, 기존 보상 모델링의 일부 문제점을 해결하는 규칙 기반 보상 모델을 사용합니다.

2. 보상 설계: PRM 및 ORM 벗어나기

2.1 규칙 기반 보상을 사용하는 이유

저자들은 매개변수화된 보상 모델(PRM) 대신 규칙 기반 보상을 선택했습니다. 주요 내용은 다음과 같습니다.

세분화된 단계 라벨링이 어렵습니다. 일반적인 추론 작업에서 각 중간 단계에 대한 명확하고 세분화된 기준을 정의하기 어렵습니다.
라벨링 비용 및 정확도 라벨 생성 자동화는 일반적으로 부족하며, 수동 주석은 확장하기에 너무 비쌉니다.
보상 해킹 방지 보상 함수 자체가 기계 학습 시스템(PRM)에 의해 모델링될 때, 모델은 해당 보상을 조작하거나 악용하는 방법을 배울 수 있습니다(보상 해킹). PRM의 지속적인 재훈련은 복잡성과 자원 요구 사항을 증가시킵니다.

결과적으로 DeepSeek-R1은 특히 수학 또는 프로그래밍 작업에서 최종 답변을 정답과 비교하거나 컴파일 및 테스트 사례를 사용하여 정확성을 확인하는 등 직접적인 규칙 기반 신호를 사용합니다. 또한 출력 형식(예: 추론이 <think>...</think> 태그로 묶여 있는지 여부) 및 언어 일관성을 확인하는 규칙을 통합합니다.

2.2 모델 기반 출력 보상(ORM) 버리기

DeepSeek-R1은 환각, 잠재적인 보상 해킹 및 불안정성에 대한 유사한 우려로 인해 별도의 모델이 출력을 판단하거나 점수를 매기는 대안적인 "ORM" 접근 방식도 버립니다. 일부 작업에서 "밀집 보상" 방법의 장점에도 불구하고, 연구팀은 순전히 규칙 기반 접근 방식이 제공하는 단순성, 안정성 및 강력성을 중시합니다.

3. 훈련 전략: "제로"에서 다단계 프로세스로

DeepSeek-R1의 훈련은 다음과 같은 별개의 단계로 나눌 수 있습니다.

DeepSeek-R1-Zero
- 시작점: DeepSeek-V3-Base(또는 유사하게 사전 훈련된 기본 모델)를 가져와 초기 SFT 없이 RL을 직접 적용합니다.
- 방법: 규칙 기반 보상과 GRPO(Generalized Rejection Policy Optimization) 알고리즘을 사용합니다.
- 목표: 수학/프로그래밍 작업의 정확성을 극대화하고 특정 형식 규칙을 준수합니다.
- 결과:
  - 모델 출력이 훈련 과정에서 길어지며, 응답에서 자기 성찰이나 자기 반성의 초기 징후를 보여줍니다.
  - 그러나 텍스트를 읽기 어렵고 언어가 혼합될 수 있습니다.
전체 DeepSeek-R1로 전환
- R1-Zero는 추론 성능을 성공적으로 향상시켰지만, 여전히 가독성과 언어 일관성에 어려움을 겪습니다.
- 연구팀은 그 후 소량의 고품질 데이터를 추가하여 SFT를 수행하여 전반적인 명확성과 일관성을 향상시킵니다. 이 SFT 콜드 스타트 이후, 성능을 더욱 향상시키기 위해 RL을 다시 시작합니다.
최종 R1 훈련 파이프라인은 다음 네 가지 단계로 구성됩니다.
1. 고품질 데이터를 사용한 최소한의 SFT
  - 몇 천 개의 엄선된 예제(예: 자세한 CoT 데이터)를 수집합니다.
  - 모델이 더 일관되게 "말하도록" 짧은 SFT를 수행합니다.
2. 추론을 위한 집중적인 RL
  - R1-Zero와 동일한 규칙 기반 보상을 수학/논리 작업에 사용합니다.
  - 답변에서 여러 언어가 혼합되는 것을 줄이기 위해 언어 일관성 보상을 추가합니다.
3. 거절 샘플링 + SFT
  - 거절 샘플링을 사용하여 이전 단계의 모델 출력에서 저품질 또는 형식이 잘못된 응답을 제거합니다.
  - 단순한 규칙 기반 접근 방식으로 쉽게 판단할 수 없는 작업을 "LLM-as-judge" 스타일 검증(예: DeepSeek-V3에서)을 사용하여 통합합니다.
  - 필터링된 약 60,000~~600,000개(정확한 데이터세트 언급에 따라 다름)의 추론 샘플과 약 20,000~~200,000개의 비추론 샘플을 결합하여 또 다른 라운드의 SFT(2 에폭)를 수행합니다.
4. 전체 범위를 위한 RL
  - 다양한 작업 유형에 대해 모델은 다른 프롬프트와 보상 규칙을 사용합니다.
  - 수학/논리 작업은 원래 규칙 기반 점수에 계속 의존합니다.
  - "일반 작업"은 유용성과 안전성을 위한 표준 보상 모델을 사용합니다.
결과적으로 DeepSeek-R1은 추론 성능과 명확성 및 무해성과 같은 사용자 중심적 특성 간의 균형을 달성하여 많은 벤치마크에서 최고 수준의 모델과 효과적으로 일치합니다.

4. 관찰: KL 손실 및 GRPO 대 PPO

DeepSeek-R1은 RL 단계에 GRPO를 사용하며, 이는 PPO와 같은 방법과 구별됩니다.

PPO는 일반적으로 최종 정책 기울기를 계산하기 전에 KL 페널티 항을 보상과 곱합니다.
GRPO는 대신 일반적으로 분산을 줄이기 위해 특수 추정기(K3)를 사용하여 KL 항을 명확하게 빼줍니다.

이러한 접근 방식은 특히 부분 토큰만 샘플링할 때 훈련을 더 안정적으로 만듭니다. KL의 간단한 몬테카를로 추정을 사용하는 것에서 오는 더 높은 분산을 방지합니다.

5. AlphaGo의 반향: 왜 "제로"가 익숙하게 느껴지는가

독자들은 저자들이 MCTS(몬테카를로 트리 탐색)와 "제로 유사" 접근 방식을 시도했기 때문에 AlphaGo와의 유사성을 종종 언급합니다.

R1-Zero는 지도 데이터가 거의 없거나 전혀 없이 시작한다는 점에서 AlphaGo Zero와 유사합니다.
AlphaGo는 초기 지도 정책에 대한 인간 게임 기록을 사용한 다음, 자가 플레이가 AlphaZero로 이어졌습니다. 반대로 DeepSeek는 거의 반대되는 워크플로를 수행합니다. R1-Zero는 먼저 처음부터 RL을 수행한 다음 일부 SFT를 추가합니다.

궁극적으로 DeepSeek가 언어 추론에 MCTS를 사용하려는 시도는 (큰 분기 계수, 세분화된 값 모델 훈련의 어려움 등) 장애물에 직면했으므로 MCTS는 최종 파이프라인에서 성공적이지 않은 것으로 간주되었습니다.

6. 실험 결과 및 벤치마크

고난도 작업 (수학 추론, 코드 완성, 복잡한 QA)의 범위에서 DeepSeek-R1은 OpenAI-o1-1217과 비슷한 성능을 제공하여 추론 기능이 있는 LLM의 선두 그룹에 속합니다.

한편, 중간 R1-Zero는 이미 기준선보다 추론 작업에서 상당한 성과를 보여줍니다. 그러나 더 어색하거나 혼합된 언어 출력을 생성합니다. 따라서 나중에 도입된 SFT 단계는 모델의 강력한 추론 기능을 유지하거나 심지어 향상시키면서 사용자 경험과 신뢰성을 향상시킵니다.

7. 지식 증류 및 소형 모델

저자들은 DeepSeek-R1을 더 작은 모델(예: Qwen2.5-32B)로 단순히 증류하는 것이 더 비싼 소형 모델 RL 훈련과 동등한 결과를 얻을 수 있다고 지적합니다. 이것은 소형 모델에서 완전한 RL 파이프라인을 수행하는 대신, 더욱 강력한 모델(R1과 같이)에서 고품질 출력을 효율적으로 수집한 다음 이러한 출력에 대해 지도 미세 조정을 수행할 수 있다는 설득력 있는 주장입니다.

결과:

증류된 DeepSeek-R1-32B는 RL을 사용하여 처음부터 소형 모델을 개발하는 비용의 일부만으로 OpenAI-o1-mini에 근접한 성능에 도달하는 것으로 보고되었습니다.

8. 과제 및 미래 방향

범용 능력
- DeepSeek-R1은 추론 작업에 중점을 두지만 일부 일반 도메인에서는 DeepSeek-V3에 미치지 못합니다. 연구팀은 더 광범위한 CoT 또는 도메인별 데이터를 사용하여 모델의 광범위한 적용 범위를 개선할 계획입니다.
언어 혼합 및 다국어 지원
- R1에는 중국어와 영어에 대한 언어 일관성 확인이 있지만, 다른 언어 또는 언어 전환 시나리오에서는 여전히 어려움을 겪습니다.
프롬프트 엔지니어링 민감도
- R1은 멀티턴 또는 퓨샷 프롬프트에 민감할 수 있습니다. 저자는 최적의 결과를 얻기 위해 원하는 출력 형식을 단순히 지정하는 제로샷 접근 방식을 권장합니다.
소프트웨어 엔지니어링 및 긴 평가
- 코드 작업은 검증하는 데 시간이 더 오래 걸릴 수 있으므로 대규모 RL이 더 어렵습니다. DeepSeek-R1은 소프트웨어 테스트에서 개선을 보여주지만 DeepSeek-V3보다 극적인 도약은 아닙니다. 미래 계획에는 프로그래밍 작업에서 RL 속도를 높이기 위한 비동기식 평가가 포함됩니다.
600B 이상으로 확장
- 이 논문은 이 접근 방식이 극단적인 규모(예: 600B 매개변수)에서 안정적이고 효과적인지 완전히 증명하지 않습니다. 이는 연구팀이 탐구할 수 있는 또 다른 열린 영역입니다.

9. 결론

DeepSeek-R1은 대규모 SFT가 언어 모델의 추론 능력을 크게 향상시키기 위한 절대적인 전제 조건이 아님을 보여줍니다. 간단하면서도 강력한 규칙 기반 보상을 활용하고, 처음부터 SFT를 건너뛰거나 최소화하고, 소량의 엄선된 데이터 세트와 반복적인 RL 단계를 통합함으로써 R1은 어려운 벤치마크에서 최첨단 성능을 달성합니다.

이 연구는 또한 더 강력한 모델(R1)의 출력을 사용하여 더 작은 모델을 훈련하는 지식 증류가 소형 모델이 광범위한 RL 훈련을 직접 받는 것보다 더 효율적이고 우수한 결과를 생성할 수 있음을 강조합니다.

DeepSeek-R1은 여전히 일반성에 있어 일부 차이가 있으며 프롬프팅에 민감하지만, 하이브리드 RL + 최소 SFT가 강력하고 유연하며 더욱 제어 가능한 LLM을 생성할 수 있는 미래를 향한 길을 제시합니다. 이 논문은 적절한 보상과 반복적인 훈련 단계를 통해 모델이 대규모 단계별 주석 없이 자기 성찰, 확장된 추론 및 강력한 성능을 "발견"할 수 있음을 보여주는 유망한 이정표를 설정합니다.