중국의 AI 승리: StepFun의 Step-2-16k가 국내 LLM을 제치고 세계 상위 5위에 올라

무엇이 일어났나?

11월 19일, 튜링 상 수상자인 얀 르쿤과 메타의 수석 AI 과학자, 아바쿠스.AI, 뉴욕 대학교 등 여러 기관이 공동으로 설립한 프리미엄 LLM 평가 기준인 라이브벤치는 대형 언어 모델에 대한 최신 평가 결과를 발표했습니다. 평가는 수학, 추론, 프로그래밍, 언어 이해, 지시 수행 및 데이터 분석을 포함한 다양한 지표를 포괄했습니다.

스텝펀의 독점적인 조단위 파라미터 언어 모델인 스텝-2, 특히 그 변종인 스텝-2-16k는 중국의 기본 모델 중에서 가장 높은 기술 성능을 달성했습니다. 이 성과로 스텝-2-16k는 글로벌 10위 안에 진입한 유일한 중국 LLM으로, 5위를 차지하게 되었습니다. 톈위 치안원과 딥시크의 경쟁 중국 모델도 리더보드에서 주목할 만한 순위를 기록했습니다.

스텝-2-16k 모델은 스텝펀의 스텝 시리즈의 일환으로, 토큰 수에 따라 구분된 모델인 스텝-1-8k 및 스텝-1-32k와 함께 제공됩니다. 스텝-2 시리즈는 1조 개 이상의 매개변수를 가진 전문가 혼합(MoE) 아키텍처를 특징으로 하며, 텍스트 생성, 논리적 추론 및 수학 문제 해결과 같은 다양한 작업의 성능을 향상시키기 위해 설계되었습니다.

주요 발견

중국 내 최고의 성능 및 글로벌 인정: 스텝-2-16k는 중국 LLM 중 1위를 차지하며, 세계적으로는 5위를 기록해 주요 국제 모델들을 능가합니다.
뛰어난 지시 수행 능력: 이 모델은 86.57의 점수로 지시 수행(IF) 카테고리에서 뛰어난 능력을 보여, 세밀한 인간의 지시를 이해하고 실행하는 우수한 능력을 나타냅니다.
종합적인 기술 능력: 스텝-2-16k는 추론과 데이터 분석에서 강력한 성능을 보여주지만, 코딩과 수학에서는 개선의 여지가 있습니다.
개발자와 사용자에게 접근 용이: 스텝펀은 API 플랫폼을 통해 스텝-2 모델을 제공하며, 소비자용 스마트 어시스턴트인 "위우원"에 통합하여 널리 사용할 수 있도록 했습니다.
라이브벤치의 혁신적인 평가 기준: 라이브벤치는 LLM 평가를 위한 높은 기준을 계속해서 설정하고, 모델이 다각적인 복합 차원에서 철저하게 테스트되도록 보장합니다.

심층 분석

스텝펀의 스텝-2-16k 모델은 중국의 AI 분야에서 대형 언어 모델 영역에서 큰 도약을 보여줍니다. 라이브벤치의 평가는 몇 가지 강점과 향후 개선이 가능한 부분을 강조합니다:

지시 수행의 우수성: 86.57의 IF 평균 점수로, 스텝-2-16k는 사용자 지시를 정확히 해석하고 준수하는 데 있어 선두를 달리고 있습니다. 이 능력은 고객 지원 봇 및 워크플로 자동화 도구 같은 정밀한 작업 수행이 필요한 응용 프로그램에서 중요합니다. 고전 시가와 같은 창의적인 콘텐츠를 생성하면서도 구조적 규칙을 엄격히 준수하는 모델의 능력은 고급 언어 생성 능력을 잘 보여줍니다.
균형 잡힌 추론 및 데이터 분석: 이 모델은 추론에서 58.67, 데이터 분석에서 54.86의 점수를 기록하여 논리적이고 분석적인 작업을 처리하는 능력이 뛰어남을 나타냅니다. 이러한 점수는 양호하나, 스텝-2-16k가 일반적인 응용 프로그램에 잘 적합하지만, 더 복잡한 문제 해결에 있어 추가적인 정제가 필요할 수 있음을 시사합니다.
강화가 필요한 영역: 스텝-2-16k 모델은 코딩과 수학에서 각각 46.87 및 48.88의 점수를 기록하여 개선해야 할 부분이 존재합니다. 이러한 낮은 점수는 복잡한 프로그래밍 작업 및 고급 수학적 계산을 처리하는 데 어려움이 있음을 나타냅니다. 이는 GPT-4와 같은 국제적인 경쟁자들이 뛰어난 영역입니다.
글로벌 포지셔닝: 글로벌 5위에 랭크된 스텝-2-16k는 세계적으로 유명한 LLM 중 하나로 자리 잡으면서 중국의 AI 개발 능력이 성장하고 있음을 보여줍니다. 이 성과는 스텝펀의 명성을 높일 뿐만 아니라, 경쟁이 치열한 글로벌 AI 시장에서 중국의 입지를 강화합니다.
기술 혁신: 스텝-2 시리즈의 MoE 아키텍처는 네트워크 내에서 전문 "전문가"를 동적으로 선택할 수 있도록 해 효율성과 정확성을 모두 향상시킵니다. 이 설계는 모델이 더 길고 복잡한 입력을 처리할 수 있게 하며, 스텝-2-16k는 최대 16,000개의 토큰을 지원하여 광범위한 텍스트 기반 작업에 매우 유용합니다.

스텝펀의 미세한 접근법, 경쟁 LLM 시장에서 두드러지다

스텝펀은 조용히 중국뿐만 아니라 세계에서 가장 묵묵하고 강력한 대형 언어 모델(LLM) 플레이어로 자리잡고 있습니다. 많은 경쟁자들이 공격적인 마케팅 캠페인에 많은 투자를 하고 리더보드에서 순위를 높이기 위해 분투하는 것과는 달리, 스텝펀은 연구 및 개발에 집중하여 뛰어난 성능을 제공합니다. 이러한 저조한 전략은 스텝펀이 모델을 정교하게 다듬고 하이 프로필 광고전의 방해 없이 신뢰성과 우수성을 확보하는 데 집중할 수 있도록 합니다. 실체를 중시하는 접근 방식 덕분에 스텝펀은 스텝-2-16k와 같은 최고의 LLM을 생산하는 명성을 쌓을 수 있었으며, 이는 국내 벤치마크뿐만 아니라 글로벌 무대에서도 두각을 나타냅니다. 이러한 규율 있는 접근 방식은 혁신과 품질에 대한 회사의 의지를 강조하며, 업계의 다른 이들에게 이정표 역할을 하고 있습니다. 화려한 광고 대신 지속적인 노력을 통해 성공이 달성될 수 있음을 보여줍니다.

알아두면 좋은 사실

중국 스타트업이 개발한 첫 조단위 파라미터 모델: 스텝펀은 2024년 3월 스텝-2 언어 모델의 미리보기를 출시하여 중국 스타트업이 개발한 첫 조단위 파라미터 모델이 되었습니다. 이 이정표는 글로벌 무대에서 중국 AI 스타트업의 급속한 발전과 경쟁력을 상징합니다.
라이브벤치의 철저한 평가 기준: 라이브벤치는 "세계 최초의 무적 LLM 기준"이라 불리며, 혁신적인 데이터 소스와 월간 업데이트를 통해 지속적이고 강력한 평가를 보장합니다. AI 분야의 유명 인물들이 공동 설립한 라이브벤치는 다양한 복합 작업에서 LLM 성능을 포괄적이고 신뢰할 수 있게 측정합니다.
개발자와 소비자를 위한 접근 가능한 AI: 인상적인 기술 사양 외에도 스텝펀은 스텝-2-16k를 오픈 API 플랫폼을 통해 제공하여 접근성을 우선시하고 있습니다. 또한, 스마트 어시스턴트인 "위우원"에 모델을 통합하여 일반 사용자들이 위우원 앱과 공식 웹사이트를 통해 직접 그 능력을 경험할 수 있도록 하고 있습니다.
미래 전망: 현재의 한계를 해결하기 위한 지속적인 개선과 집중적인 훈련을 통해, 스텝-2-16k는 더욱 다재다능하고 강력해질 가능성이 큽니다. 코딩, 수학 및 미묘한 언어 이해의 향상은 그 모델이 중국과 세계에서 AI 혁신의 선두주자로 자리 잡는 데 기여할 수 있습니다.

결론

스텝펀의 스텝-2-16k 모델은 대형 언어 모델 분야에서 중요한 성과를 나타내며, 중국 최고의 LLM으로 자리매김하고 글로벌 무대에서 강력한 경쟁자로 입지를 다지고 있습니다. 뛰어난 지시 수행 능력과 다양한 기술 차원에서의 우수한 성과를 통해 스텝-2-16k는 AI의 우수성을 위한 새로운 기준을 설정합니다. 스텝펀이 모델의 능력을 계속해서 다듬고 확장함에 따라, 이 회사와 중국의 급성장하는 AI 산업을 위한 미래는 밝습니다.