딥시크는 정말 오픈소스인가? 업계 표준 뒤에 숨겨진 진실
인공지능 연구 기업 딥시크는 최근 자체 거대 언어 모델(LLM)을 MIT 라이선스 하에 공개하며 모델 가중치, 추론 코드, 기술 문서를 제공했습니다. 하지만 훈련 코드는 공개하지 않아 딥시크를 진정한 "오픈소스"로 볼 수 있는지에 대한 뜨거운 논쟁이 일고 있습니다.
이 논쟁은 거대 언어 모델 분야에서 오픈소스의 의미에 대한 서로 다른 해석에서 비롯됩니다. 일부에서는 훈련 코드가 없으면 모델을 완전한 오픈소스로 볼 수 없다고 주장하는 반면, 다른 이들은 딥시크의 접근 방식이 메타, 구글, 알리바바와 같은 주요 인공지능 기업들이 따르는 업계 표준에 부합한다고 강조합니다.
주요 내용
-
딥시크의 오픈소스 접근 방식
- MIT 라이선스 하에 모델 가중치 공개
- 추론 코드 및 기술 문서 제공
- 훈련 코드는 공개하지 않아 오픈소스 신뢰성에 대한 논쟁 발생
-
오픈소스 LLM에 대한 업계 표준
- 대부분의 기업(메타, 구글, 알리바바)이 유사한 모델 따름
- 가중치 및 추론 코드는 공유하지만 훈련 코드는 공유하지 않는 것이 표준 관행
- 훈련 코드를 포함한 완전한 오픈소스 공개는 드묾
-
실질적인 고려 사항
- LLM 훈련 비용은 매우 높음 (딥시크 v3 훈련 비용: 3천만 위안)
- 모델 가중치는 큰 파일 크기 때문에 허깅 페이스에 호스팅됨
- 커뮤니티는 가중치 접근을 통해 미세 조정 및 실험 가능
-
커뮤니티 반응
- 일부는 훈련 코드 부족을 비판하며 투명성 제한 주장
- 다른 이들은 오픈 가중치 및 로컬 배포의 실질적인 이점 강조
- 오픈AI를 포함한 주요 AI 기업에도 유사한 비판 제기
심층 분석: 업계 맥락 및 의미
AI 업계 오픈소스에 대한 폭넓은 시각
딥시크는 오픈소스 AI 접근 방식에서 예외적인 경우가 아닙니다. 훈련 코드 없이 모델 가중치를 공개하는 관행은 메타의 라마 2 출시 이후 업계 표준이 되었습니다. 구글(제미니), 알리바바(Qwen), GLM4 시리즈와 같은 기업들도 유사한 정책을 채택했습니다. 심지어 라마 2에도 월간 활성 사용자 수 7억 명이 넘는 기업에 대한 사용 제한과 같은 상업적 제약이 포함되어 있습니다.
기업들이 훈련 코드를 공개하지 않는 이유는 무엇일까요? 그 이유는 비용, 복잡성 및 경쟁 우위에 있습니다. 딥시크 v3와 같은 대규모 모델을 훈련하려면 수천만 달러의 컴퓨팅 리소스가 필요합니다. 또한 AI 기업들은 훈련 방법론을 영업 비밀로 보호하여 자사 모델의 경쟁력을 유지합니다.
훈련 코드 부족이 문제일까?
비평가들은 완전한 투명성을 위해 훈련 코드가 필요하다고 주장하지만, 대부분의 LLM 사용자는 훈련 코드가 필요하지 않습니다. 오픈 가중치를 통해 개발자는 다음과 같은 작업을 수행할 수 있습니다.
- 특정 작업에 맞게 모델 미세 조정
- 모델을 로컬에 배포
- 실험을 수행하고 다운스트림 애플리케이션 생성
또한 많은 AI 모델은 파이토치, 트랜스포머, vLLM과 같은 표준 프레임워크를 사용하므로 명시적인 훈련 스크립트 접근 없이도 아키텍처 세부 정보 및 기능을 유추할 수 있습니다.
커뮤니티 관점과 이중 잣대
한 가지 떠오르는 우려는 딥시크 및 다른 중국 AI 기업들이 서구 기업에 비해 더 많은 비판을 받고 있는가 하는 점입니다. 비평가들은 이름에 "오픈"이라는 단어가 들어간 오픈AI는 모델 가중치를 전혀 공개하지 않지만, 딥시크는 메타 및 구글과 동일한 방식을 따랐음에도 불구하고 더 가혹한 비판을 받고 있다고 지적합니다.
이 논의는 기술 논쟁에서 나타나는 더 폭넓은 패턴을 반영합니다. 처음에는 과도한 기대가 뒤따르고, 이후 반발이 일어나며, 마지막으로 균형 잡힌 재평가가 이루어집니다. 딥시크의 출시는 초기에는 그 능력에 대한 기대가 있었지만, 오픈소스 주장에 대한 비판으로 이어지면서 이러한 사이클을 따랐습니다.
알고 계셨나요? 오픈소스 AI에 대한 잘 알려지지 않은 사실
- OLMO는 가중치뿐만 아니라 훈련 코드와 데이터도 공개하는 몇 안 되는 진정한 오픈소스 LLM 중 하나입니다. 그러나 완전한 오픈소스 모델은 여전히 틈새 시장이며 주로 교육 및 연구 목적으로 사용됩니다.
- AI 모델 가중치는 파일 크기가 매우 커서 깃허브가 아닌 허깅 페이스에 호스팅되는 경우가 많아 중국의 일부 사용자에게는 직접적인 접근이 어렵습니다.
- 오픈소스 AI에 대한 논쟁은 새로운 것이 아닙니다. "개방성"에 대한 논의는 오픈AI가 개방형 연구소에서 상업용 AI 강자로 전환되던 초기 시절로 거슬러 올라갑니다.
- 대규모 AI 모델의 훈련 비용은 천문학적입니다. 예를 들어 GPT-4 훈련 비용은 수억 달러에 달했을 가능성이 높아, 전체 훈련 코드를 이용할 수 있다 하더라도 대부분의 조직이 복제하기에는 현실적으로 불가능합니다.
마무리 생각
딥시크의 오픈소스 AI 접근 방식은 전통적인 오픈소스 소프트웨어 정의와 일치하지 않더라도 업계 표준을 따릅니다. 핵심 질문은 LLM 분야의 오픈소스가 완전한 투명성(훈련 코드, 데이터, 가중치)을 우선시해야 하는지 아니면 실질적인 접근성(모델 가중치 및 추론 기능)을 우선시해야 하는지입니다. 현재로서는 대부분의 AI 개발자가 실제 응용 프로그램 및 혁신을 가능하게 하는 오픈 가중치를 통해 이익을 얻고 있습니다.
AI에서 "오픈소스"가 무엇을 의미하는지에 대한 논쟁은 계속될 것이지만, 딥시크는 이러한 접근 방식에서 결코 외로운 존재가 아닙니다. AI 연구가 발전함에 따라 이 빠르게 성장하는 분야에서 개방성의 정의도 함께 진화할 것입니다.