AI가 최첨단 AI 연구를 따라 할 수 있을까요? 언어 모델을 궁극적으로 시험하는 벤치마크 내부

AI가 최첨단 AI 연구를 따라 할 수 있을까요? 언어 모델의 궁극적인 시험대가 되는 벤치마크 집중 분석

"똑똑한" AI의 의미를 재정의하는 벤치마크

LLM은 코딩, 글쓰기, 디자인을 합니다. 이제는 AI 연구 자체라는 자신의 분야 최전선을 복제하라는 요구를 받고 있습니다.

대규모 언어 모델(LLM)의 능력이 계속 커지면서 투자자, 연구자, 규제 당국 모두에게 중요한 질문이 떠오릅니다. AI가 최고 수준의 머신러닝 연구를 자율적으로 복제할 수 있을까요? 다시 말해, 사람이 작성한 코드를 사용하지 않고 고도로 훈련된 ML 박사의 일을 처음부터 끝까지 해낼 수 있을까요?

OpenAI가 이 질문을 시험하기 위해 개발한 새롭고 엄격한 벤치마크인 PaperBench를 소개합니다. PaperBench는 자세한 평가 기준 시스템, 클린룸 평가 설정, 처음부터 다시 복제에 중점을 두고 있어 현재까지 AI 에이전트에 대한 가장 야심 찬 스트레스 테스트라고 할 수 있습니다. 화려한 답변을 생성하는 것이 아니라 머신러닝 연구 개발이라는 가장 복잡한 지적 영역에서 처음부터 끝까지 추론, 계획, 실행하는 것입니다.

중요한 이유: 복제는 능력의 신호

과학적 재현성은 합법적인 연구의 초석입니다. AI 에이전트가 최첨단 논문을 자율적으로 복제할 수 있다면 단순한 기술 발전 신호일 뿐만 아니라 고급 인지 능력의 한 형태를 보여주는 것입니다.

하지만 더 중요한 것이 있습니다. OpenAI, Anthropic, DeepMind와 같은 선도적인 연구소에게 에이전트 재현성은 광범위한 정책 및 거버넌스 목표와 일치합니다. AI 안전 분야에서 점점 더 많이 언급되는 용어인 능력 기반 준비성에 대한 구체적인 지표를 제공합니다.

비즈니스 관점에서 보면 새로운 연구를 안정적으로 복제할 수 있는 AI는 연구 개발 파이프라인을 가속화하고, 간접비를 줄이고, 잠재적으로 내부 팀 구조를 재편할 수 있습니다. 오늘날 그 비전은 요원합니다. 하지만 PaperBench는 경기장을 만들고 첫 번째 결과는 경종을 울립니다.

핵심 과제: 최첨단 AI 논문을 처음부터 다시 복제

PaperBench는 AI 에이전트가 연구 논문을 읽고 저자가 제공한 코드를 사용하지 않고 경험적 결과를 재현하는 작동 코드를 생성할 수 있는지 평가합니다.

입력: 최근의 영향력 있는 ML 논문(예: ICML 2024)과 저자의 설명 노트.
출력: 실행되어 원본 논문의 결과와 일치해야 하는 reproduce.sh 스크립트를 포함한 전체 Git 저장소.
환경: 코드 실행은 안전한 GPU 지원 가상 머신에서 이루어집니다. 아무것도 가정하지 않고 모든 것이 검증됩니다.

획기적인 것은 평가가 얼마나 세분화되는가입니다. 이 프로세스는 코드 정확성, 실행 신뢰성, 결과 충실도와 같은 실제 개발 하위 작업이 반영된 8,000개 이상의 가중 기준점으로 나뉩니다. 최종 점수인 재현 점수는 에이전트가 과제를 얼마나 잘 처리했는지에 대한 미묘한 그림을 제공합니다.

PaperBench 내부: 아키텍처, 평가 기준, 잠들지 않는 심판

1. 논문 저자와 함께 설계한 계층적 평가 기준

20개의 벤치마크 논문 각각은 코드 개발, 실행, 결과 일치의 평가 노드 계층으로 꼼꼼하게 분해됩니다.

코드 개발: 코드가 올바르게 작성되었습니까?
실행: 예상대로 실행됩니까?
결과 일치: 출력이 논문과 통계적으로 또는 질적으로 일치합니까?

원본 논문 저자와 협력하여 구축된 이 구조는 채점이 현실적이고 깊이 있게 이루어지도록 보장합니다.

2. 심판 소개: o3-mini, LLM 기반 평가자

수동 채점은 논문당 며칠이 걸립니다. PaperBench는 OpenAI의 o3-mini와 같은 모델로 구동되는 자동화된 평가 에이전트인 SimpleJudge를 사용합니다. 별도의 유효성 검사 벤치마크(JudgeEval)에서 o3-mini는 전문가의 판단에 비해 0.83의 F1 점수를 얻었습니다. 완벽하지는 않지만 견고합니다.

환각이나 오해를 최소화하기 위해 심판은 제출 파일, 논문 내용 및 저자 설명을 기반으로 각 평가 기준 리프 노드를 평가하는 컨텍스트 인식 채점을 사용합니다.

오늘날 최고의 AI 모델의 성능 - 그리고 실패한 부분

경쟁자:

Claude 3.5 Sonnet
GPT-4o
Gemini 2.0 Flash
DeepSeek-R1
OpenAI의 o1 및 o3-mini

결과:

최고 점수: Claude 3.5 Sonnet, 재현 점수 21.0%
다른 대부분의 모델? 10% 미만

반복적인 비계를 사용하여 에이전트가 더 오래 작업하도록 강제하는 대체 설정은 o1의 점수를 **24.4%**로 높였지만 Claude에서는 거의 변화가 없었습니다. 프롬프트와 아키텍처가 분명히 중요합니다.

인간 비교:

경험이 풍부한 ML 박사 소규모 그룹에게 동일한 과제가 주어졌습니다. 완료된 3개의 논문에서 그들은 **41.4%**를 기록하여 현재 모든 모델보다 훨씬 뛰어났습니다. AI는 처음에는 빠르게 출발했지만 전략적인 후속 조치를 보여주지 못하고 빠르게 고점을 찍었습니다.

오늘날 AI 에이전트의 강점과 한계

강점:

빠른 초기 코드 작성
논문의 주요 구성 요소 이해
기본 코드 비계 및 유틸리티 처리

약점:

조기 종료: 에이전트는 종종 "완료"를 인용하거나 문제가 발생하기 전에 중단합니다.
전략적 약점: 장기적인 계획 부족; 복잡한 작업에 대한 구조화된 접근 방식 없음.
디버깅 결핍: 통합 및 오류 해결에 어려움.
도구 비효율성: 일부 모델은 표준 프로그래밍 도구조차 효과적으로 사용할 수 없습니다.

결론은 무엇일까요? 에이전트는 전문 지식을 모방할 수 있지만 유지하는 데 필요한 더 광범위한 인지 능력은 여전히 부족합니다.

투자 및 전략적 의미

AI 연구소에게 PaperBench는 위험이 큰 연구 개발 능력의 진행 상황을 측정하는 구조화된 방법을 제공합니다. 자율 에이전트 또는 AI 지원 연구 워크플로를 작업하는 팀의 핵심 성과 지표(KPI) 역할을 합니다.

거버넌스 기관 및 안전 연구원에게 PaperBench는 능력 준비성 모델에 연결할 수 있는 확실한 지표를 제공합니다. 과학을 가속화하는 AI의 잠재력을 정량화하는 데 사용할 수 있으며 진행 속도가 조정 속도를 능가하는 경우 위험을 표시할 수도 있습니다.

투자자에게는 강력한 신호입니다. 우리는 인공 일반 지능(AGI)에 근접하지 않았지만 에이전트 기반 연구 개발의 초기 사용 사례는 생물 의학 문헌 검토, 실험 설계 또는 학술 요약과 같은 틈새 시장에서 높은 ROI를 가진 분야에서 나타날 수 있습니다. 장기적인 목표는 무엇일까요? 이러한 벤치마크가 개선됨에 따라 내부 연구 개발 파이프라인을 대상으로 하는 SaaS 스타일의 에이전트 솔루션을 기대하십시오.

다음 단계: 벤치마크 확장, 격차 해소

PaperBench 팀은 몇 가지 주요 다음 단계를 설명했습니다.

데이터 세트 확장: 더 많은 논문, 더 많은 주제.
더 나은 심판: 비판 기반 및 에이전트 평가 방법 통합.
자동화된 평가 기준 생성: AI를 사용하여 채점 지표를 정의하여 인력 시간 단축.
도구 체인 통합: 에이전트가 실제 도구 및 API에 대한 액세스를 개선하여 실행 격차를 해소합니다.

이 벤치마크는 오픈 소스이므로 연구소와 독립적인 평가자가 방법론을 복제하거나 특정 하위 분야에 맞게 조정된 변형을 구축할 수 있습니다.

결론: AI는 아직 ML 박사를 대체할 수 없지만 이제 무엇이 필요한지 알게 되었습니다.

PaperBench는 모델을 테스트할 뿐만 아니라 자율 연구 능력의 최전선을 매핑합니다. 현재 에이전트는 코드를 작성할 수 있습니다. 일부는 괜찮은 저장소를 만들 수도 있습니다. 그러나 처음부터 복잡한 연구를 재현하는 것은 여전히 불가능합니다.

핵심은 과장된 광고에도 불구하고 이러한 시스템은 여전히 연구자가 아닌 보조자라는 것입니다. 그러나 이제 PaperBench를 통해 실험별로, 저장소별로 진화를 추적할 수 있는 기준선이 있습니다.

AI 에이전트가 진정으로 자율적인 연구자가 되기 위해 극복해야 할 다음 장벽은 무엇이라고 생각하십니까? 여러분의 생각을 아래에 적어주세요.