LLM 기준이 고장났습니다: 언어 모델 평가를 위한 실험적 테스트가 이제 금본위입니다

LLM 벤치마크는 문제를 겪고 있습니다: 실험적 테스트가 언어 모델 평가의 새로운 기준이 된 이유

한때 유명했던 대형 언어 모델(LLM)을 평가하는 벤치마크들은 점점 회의적인 시선으로 바라보이고 있습니다. 수년 동안 MMLU(대규모 다중 작업 언어 이해)와 같은 벤치마크는 LLM 성능을 평가하는 데 있어 최고의 기준으로 여겨졌습니다. 이러한 벤치마크는 다양한 분야에서 모델을 테스트하여 연구자들이 발전 상황을 측정하는 데 도움을 주었습니다. 그러나 전문가들은 이러한 벤치마크, 특히 Lmsys Arena가 포화 상태에 이르렀고, 심지어 "해킹" 되었다고 우려하고 있습니다. 여기서 "해킹"이라는 용어는 모델이 순수하게 능력을 반영하기보다는 순위를 올리기 위해 전략적으로 세밀하게 조정되거나 최적화된 경우를 의미합니다.

최신 모델인 GPT-4, Claude, PaLM은 이러한 벤치마크에서 거의 최대 성능을 달성하며, 종종 인간 수준의 결과를 초과하는 경우가 많습니다. 이로 인해 더 이상의 개선이 거의 이루어지지 않게 되어 이러한 벤치마크가 최첨단 모델을 구분하는 데 덜 효과적이게 되었습니다. 또한 이러한 벤치마크에 대한 과적합, 실제 적용 가능성의 한계, 조작 가능성에 대한 우려로 인해 전문가들은 LLM을 평가하는 가장 좋은 방법은 실제 응용 프로그램에서 실험적인 방법을 사용하는 것이라고 조언하고 있습니다.

주요 포인트:

벤치마크 포화: 현재의 벤치마크, 특히 MMLU는 주요 모델들이 최소한의 성과 향상을 보이는 지점에 도달했습니다. 이 벤치마크들은 이제 최신 LLM을 평가하는 데 불충분합니다.
과적합 및 조작: 모델은 특정 벤치마크 작업에서 우수하게 수행되도록 세밀하게 조정되는 경우가 많아, 실제 언어 능력을 반영하지 않는 경우가 발생합니다. 이 현상은 Lmsys Arena와 같은 플랫폼에서도 발생하여, 모델들이 예측 가능한 시나리오에 맞추어서 "게임"을 할 수 있습니다.
실제 실험: LLM을 선택하는 가장 신뢰할 수 있는 방법은 특정 사용 사례에서 테스트하는 것입니다. 벤치마크는 범위가 제한적이며 실제 작업의 복잡성을 포착하지 못하므로 실험이 매우 중요합니다.
신규 평가 접근법: 새로운 포괄적인 벤치마크가 개발되고 있으며, 이들은 추론, 다중 양식 작업, 실제 문제 해결 등의 분야에 중점을 두고 있습니다. 이러한 노력이 모델의 적응력과 지능을 더 잘 이해하는 데 도움을 주고자 합니다.

분석:

AI 평가의 풍경이 변화하고 있으며, 이러한 변화는 기술의 자연스러운 진화를 반영하고 있습니다. LLM이 더 발전함에 따라 전통적인 벤치마크는 이러한 모델의 능력의 미세한 차이를 포착하는 데 실패하고 있습니다. 예를 들어, MMLU의 고정된 질문 집합은 새로운 지식이나 동적인 실제 시나리오를 반영하지 않습니다. 최첨단 모델들은 이러한 고정된 데이터세트에서 매우 높은 성과를 보일 수 있지만, 이는 다양한 예측 불가능한 맥락에서의 향상된 성능으로 이어지지 않습니다.

또한, Lmsys Arena와 같은 플랫폼은 일대일 비교를 사용하기 때문에 조작 가능성에 취약합니다. 모델은 특정 쌍별 비교에서 우수한 성과를 내도록 제작될 수 있으며, 인간 평가자의 편향—예를 들어, 자신감 있고 간결한 응답을 선호하는 것—을 최적화할 수 있습니다. 이러한 최적화는 결과를 왜곡시켜 모델의 일반적인 지능에 대한 잘못된 이미지를 만듭니다.

이러한 문제를 완화하기 위해 AI 커뮤니티는 더 포괄적인 평가 시스템을 개발하는 데 점점 더 초점을 맞추고 있습니다. 이러한 새로운 벤치마크는 전통적인 벤치마크에서 테스트되지 않은 추론, 장문 생성, 심지어 실제 문제 해결 능력을 평가하는 데 중점을 두고 있습니다. 또한, 텍스트와 이미지와 같은 다양한 유형의 미디어를 통합하는 데 필요한 다중 양식 작업에 대한 강조가 커지고 있습니다.

그러나 벤치마크에서의 발전에도 불구하고 전문가들은 실용적인 접근 방식을 권장합니다: 실험적인 방법. 특정 사용 사례에서 모델을 직접 테스트함으로써, 벤치마크가 시뮬레이션할 수 없는 실제 조건에서 성능을 평가할 수 있습니다. 실험을 통해 응답 시간, 적응력, 복잡한 질문 처리, 전반적인 사용자 경험 등의 요소를 평가할 수 있습니다. 더욱이, 이는 인공지능 배치에서 점점 더 중요한 윤리적 문제인 편향과 콘텐츠 조절과 관련된 통찰력을 제공할 수 있습니다.

아시나요?

시스템 조작: 일부 주요 LLM은 Lmsys Arena와 같은 플랫폼에서 순위를 올리기 위해 모델을 전략적으로 세밀하게 조정한 사례가 보고되었습니다. 이를 감독 세밀 조정(Supervised Fine-Tuning, SFT)이라고 하며, 모델이 벤치마크 작업에서 뛰어난 성과를 낼 수 있게 하지만, 다른 실제 작업으로 일반화되기 어려울 수 있습니다.
정확성을 넘어서: LLM을 평가할 때 정확성은 고려해야 할 많은 요소 중 하나일 뿐입니다. 유창성, 일관성, 창의성, 특정 분야 지식 처리와 같은 메트릭도 사용 사례에 따라 동일하게 중요합니다.
다중 양식의 미래: 다음 세대의 AI 평가에는 다중 양식 평가가 포함될 가능성이 높으며, 여기서 LLM은 텍스트, 이미지 및 비디오와 같은 여러 출처의 정보를 이해하고 통합하는 작업에서 테스트됩니다.

결론적으로, MMLU와 Lmsys Arena와 같은 벤치마크가 LLM 발전에 중요한 역할을 해왔지만, 그 한계가 점점 더 분명해지고 있습니다. 모델이 계속 개선됨에 따라, 더 미세한 평가 방법에 대한 필요성이 증가합니다. 궁극적으로 LLM을 평가하는 최선의 방법은 특정 사용 사례에서 직접 실험하여 고유한 요구와 도전에 부합하는지를 확인하는 것입니다.

LLM 기준이 고장났습니다: 언어 모델 평가를 위한 실험적 테스트가 이제 금본위입니다

LLM 벤치마크는 문제를 겪고 있습니다: 실험적 테스트가 언어 모델 평가의 새로운 기준이 된 이유

주요 포인트:

분석:

아시나요?

당신도 좋아할지도 모릅니다

뉴스레터 구독하기