LeCun의 LiveBench 벤치마크, GPT-4o와 알리바바의 Qwen이 최고 성능 발휘
인공지능 분야의 개척자인 Yann LeCun과 그의 팀이 대규모 언어 모델(LLM)을 위한 새로운 벤치마크 플랫폼 LiveBench를 공개했습니다. LiveBench는 테스트 데이터가 모델의 학습 데이터에 포함되어 평가의 공정성과 정확성을 저해하는 문제인 테스트 세트 오염을 해결하기 위해 설계되었습니다. 이 혁신적인 벤치마크는 수학 경쟁, arXiv 논문, 뉴스 기사, 데이터셋 등 최근 출처로부터 주기적으로 업데이트되는 문제들을 포함하고 있습니다. 이 벤치마크에는 수학, 코딩, 추론, 언어, 지시 따르기, 데이터 분석 등 다양한 과제가 포함되어 있습니다.
LiveBench는 유명 폐쇄형 모델과 다수의 오픈 소스 모델을 평가하며, 모델 크기는 0.5 billion에서 110 billion 매개변수까지 다양합니다. 최신 순위 목록에서 GPT-4o가 전반적인 최고 모델로 나타났고, 알리바바의 Qwen이 최고의 오픈 소스 LLM으로 부각되었습니다. 이 획기적인 이니셔티브는 LLM이 발전함에 따라 그 역량이 엄격하고 공정하게 평가되도록 하는 것을 목표로 합니다.
주요 사항
- LiveBench 소개: Yann LeCun과 팀이 만든 새로운 LLM 벤치마크로, 테스트 세트 오염과 인간 또는 LLM 평가자의 편견을 해결하도록 설계되었습니다.
- 범위와 다양성: 벤치마크에는 수학, 코딩, 추론, 언어, 지시 따르기, 데이터 분석 등 다양한 과제가 포함되어 있습니다.
- 주기적 업데이트: 문제는 최근 출처에서 정기적으로 업데이트되어 벤치마크를 최신 상태로 유지하고 있습니다.
- 최고 성과자: GPT-4o가 전반적인 성과에서 선두를 차지했고, 알리바바의 Qwen이 최고의 오픈 소스 LLM으로 부상했습니다.