OpenAI, 찾기 어려운 웹 정보에서 AI 에이전트 테스트를 위한 BrowseComp 벤치마크 출시

BrowseComp: 인공지능 에이전트의 한계를 보여주는 기준 – 그리고 그 이유

소개: 브라우징이 차세대 AI의 핵심인 이유

OpenAI가 조용히 공개한 BrowseComp은 인공지능 에이전트가 온라인에서 찾기 어려운 정보를 찾는 능력을 테스트하기 위해 만들어진 공개 벤치마크입니다. 이것은 단순한 리더보드 경쟁이 아니라, AI 분야 전체에 던지는 도전입니다.

멀티모달 추론, 자율 에이전트, 검색 증강 생성(RAG) 기술이 빠르게 발전하고 있지만, 대부분의 대규모 언어 모델(LLM)은 다음과 같은 간단해 보이는 과제에 어려움을 겪습니다. 인터넷에서 찾기 어렵지만 검증 가능한 사실을 빠르고 정확하게 찾는 것입니다.

검색 증강 생성(RAG)은 대규모 언어 모델(LLM)의 결과물을 향상시키기 위해 설계된 AI 기술입니다. 외부 데이터 소스에서 관련 정보를 먼저 검색한 다음, 이 정보를 LLM에 제공하여 더 정확하고 상황에 맞는 응답을 생성합니다.

BrowseComp는 이러한 약점을 드러내기 위해 설계되었으며, 성공적으로 수행하고 있습니다. 이는 일반적인 챗봇뿐만 아니라 전문 브라우징 에이전트에도 해당됩니다.

더 깊이 살펴보면, 그 의미는 더욱 큽니다. 만약 여러분의 AI 모델이 BrowseComp 문제를 해결할 수 없다면, 끊임없이 변화하고 맥락이 풍부하며 여러 단계를 거치는 정보 수집이 일반적인 세상에서 살아남기 어려울 것입니다. 이는 시장 조사 자동화부터 경쟁 정보 분석가의 대체까지를 포함합니다.

BrowseComp의 실제 테스트 내용 – 그리고 차별점

BrowseComp가 무엇이 아닌지부터 명확히 하겠습니다.

단순한 퀴즈 테스트가 아닙니다.
위키백과 내용을 그대로 베끼는 것에 관한 것이 아닙니다.
대화 기술이나 자유로운 생성 능력을 측정하는 것이 아닙니다.

대신, BrowseComp는 정교하게 만들어진 1,266개의 고난도 연구 과제를 제시합니다. 각 과제는 짧고 사실적인 답변을 요구하며, 이 답변은 검증하기는 쉽지만 찾기는 어렵습니다. 이러한 비대칭성이 핵심입니다. OpenAI는 이를 “검증의 비대칭성”이라고 부르며, 이는 엄격한 채점과 실제 상황 모의 모두에 중요한 역할을 합니다.

"검증의 비대칭성"이라는 흥미로운 개념이 있다는 것을 알고 계셨나요? 이는 답이나 해결책을 찾는 것은 매우 어렵고 광범위한 노력과 창의성이 필요한 반면, 그 정확성을 검증하는 것은 놀라울 정도로 쉬운 상황을 설명합니다. 이 현상은 키 생성이 어렵지만 검증은 빠른 암호화부터, 보편적인 주장을 증명하기는 어렵지만 반증하기는 쉬운 과학 이론에 이르기까지 다양한 분야에서 관찰됩니다. 검증의 비대칭성은 발견과 검증 사이의 흥미로운 불균형을 강조하며, AI 개발, 경제, 심지어 퍼즐 해결과 같은 영역에 영향을 미칩니다.

예시: “문화적 전통, 과학적 과정, 요리 혁신에 대해 논하는 2023년 6월 이전에 발표된 연구 논문을 찾으십시오. 이 논문은 서벵골의 조교수였던 사람과 박사 학위를 가진 사람이 공동 저술했습니다.” 정답: 빵 만들기의 기초: 빵의 과학.

구글에서 10분 안에 찾을 수 있는지 시도해 보세요.

AI 벤치마크는 다양한 인공지능 모델의 성능을 평가하고 비교하기 위해 설계된 표준화된 테스트입니다. 이는 AI 역량을 객관적으로 측정하고 해당 분야의 진행 상황을 추적하기 위한 일관된 과제, 데이터 세트 및 지표를 제공함으로써 중요한 목적을 수행합니다.

방법론: 의도적인 난이도 역전 설계

일반적인 벤치마크가 자연어 사용자 쿼리나 무작위 샘플에서 만들어지는 것과 달리, BrowseComp의 문제는 역설계되었습니다. 작동 방식은 다음과 같습니다.

사실 정보 제공 – 트레이너는 알려진 정보(사람, 사건, 논문 등)로 시작합니다.
역전된 질문 설계 – 그들은 전기적 힌트, 사건 타임라인, 학술적 소속과 같은 세부 사항 뒤에 답을 숨깁니다.
환원 불가능성 테스트 – 트레이너는 다음을 확인합니다.
- 답이 처음 5개의 검색 결과에서 찾을 수 없습니다.
- GPT-4o(브라우징 유무), OpenAI o1 및 초기 에이전트 모델이 해결하지 못합니다.
- 인간 전문가가 해결하는 데 10분 이상, 종종 2시간 이상 걸립니다.

OpenAI는 난이도와 검증 가능성을 제어함으로써 단순한 도전 과제가 아니라 전략적 검색, 추론 및 끈기를 측정하는 벤치마크를 구축했습니다. 이러한 기술은 비즈니스, 연구 또는 중요 시스템에 배포되는 모든 진지한 AI 에이전트에게 필요한 기술입니다.

인간 벤치마킹: 진정으로 어렵다는 증거

OpenAI는 난이도를 검증하기 위해 인간 트레이너에게 의뢰했습니다. 이들은 질문을 만든 사람들이지만, 자신이 만든 문제를 풀 수 없습니다. ChatGPT도, Claude도, Gemini도 사용할 수 없습니다. 오직 열린 웹만 사용해야 합니다.

1,255개 과제 결과:

**29.2%**만이 2시간 이내에 인간에 의해 성공적으로 해결되었습니다.
**888개의 문제(70.8%)**가 해당 시간 내에 "해결 불가능"으로 표시되었습니다.
해결된 367개 중 **86.4%**가 참조 답변과 일치했습니다.

이것이 왜 중요할까요?

BrowseComp가 단순 암기나 무차별 대입 검색을 측정하는 것이 아니라, 오늘날 모델이 능숙하지 못한 인간과 유사한 조사적 추론의 형태를 탐구하기 때문입니다.

성능 분석: 브라우징 도구만으로는 부족

그렇다면 최고의 AI 에이전트는 어떻게 수행했을까요?

모델	브라우징 기능	정확도 (%)
GPT‑4o	❌	0.6%
GPT‑4o + 브라우징	✅	1.9%
GPT‑4.5	❌	0.9%
OpenAI o1	❌	9.9%
Deep Research	✅ (미세 조정)	51.5%

AI 투자자 및 개발자를 위한 주요 내용:

모델에 검색 전략 및 추론이 부족하면 브라우징 액세스는 매우 제한적인 이점을 제공합니다.
o1(브라우징 없음, 강력한 추론)이 브라우징이 있는 GPT-4o보다 성능이 좋습니다. 추론이 원시 검색보다 우수합니다.
Deep Research가 압도적이지만, BrowseComp와 유사한 작업에 대해 명시적으로 훈련되었습니다. 해당 성능은 기준선이 아닌 최고점입니다.

만약 여러분의 제품이나 에이전트가 브라우징 기능을 사용한다면, 이 벤치마크는 경종을 울리는 계기가 되어야 합니다. 오늘날 대부분의 브라우징 지원 모델은 무차별 대입 없이 복잡한 쿼리를 해결하는 데 필요한 전략적 지능이 부족합니다.

컴퓨팅 성능이 중요: 확장 시도 시 더 나은 결과

BrowseComp 문제는 충분한 컴퓨팅 성능으로 해결할 수 있는 경우가 많습니다. 하지만 모델이 언제 정답인지 알아야 합니다. OpenAI는 Deep Research가 질문당 여러 개의 답변을 제출할 수 있도록 허용했을 때의 성능을 테스트했습니다.

질문당 64개 샘플
집계 방법:
- Best-of-N(신뢰 점수 기준)
- 가중 투표
- 다수결 투표

연구 정확도에 미치는 컴퓨팅 확장 영향

전략	과제	영향	출처
테스트 시간 컴퓨팅	BrowseComp	브라우징 노력에 따라 성능 확장	OpenAI
Best-of-N	BrowseComp	단일 시도보다 15-25% 향상	OpenAI
Best-of-N	일반 LLM 과제	상당한 향상, 때로는 RL보다 성능이 뛰어남	OpenAI
단계별 사고	복잡한 추론	71% 정확도(15.6%에서 증가), 다수결 투표 시 86.7%	Hugging Face
쌍별 RM + 녹아웃	MATH-500, 올림피아드	가장 어려운 문제에서 40-60% 향상	Hugging Face/ArXiv
사전 훈련 컴퓨팅	GPQA 다이아몬드	10배 컴퓨팅당 ~12% 포인트	Epoch AI
합성 데이터	일반 ML	불균형 데이터 세트의 성능 향상	Various

Best-of-N이 승리하여, 단일 시도보다 15%–25% 더 높은 정확도를 달성했습니다. 이는 Deep Research가 종종 언제 정답을 얻는지 알고 있지만, 거기에 도달하는 데 시간과 컴퓨팅 성능이 필요하다는 것을 보여줍니다.

기업 및 제품 전략 관점에서 이는 다음으로의 전환을 지원합니다.

신뢰도 인식 에이전트: 스스로 결과를 평가할 수 있습니다.
테스트 시간 컴퓨팅 확장: 리소스에 따라 성능이 향상됩니다.

이는 CTO 및 AI 제품 리더에게 다음과 같은 중요한 질문을 제기합니다. 여러분들의 에이전트는 컴퓨팅 효율적인가요? 스스로 점수를 매길 수 있나요? 신뢰도가 낮을 때 다시 시도해야 하나요?

시장 신호: 이는 에이전트형 AI의 미래에 무엇을 의미할까요?

BrowseComp는 단순한 벤치마크 그 이상입니다. 이는 AI가 정적인 도구에서 동적인 에이전트로 전환되는 방식을 보여주는 렌즈입니다. 그리고 이를 통해 투자자와 구축자를 위한 몇 가지 거시적 추세를 알려줍니다.

에이전트형 AI의 주요 측면(기능, 작동 방식, 응용 분야, 장점 및 윤리적 고려 사항 포함)을 요약한 표입니다.

측면	설명
정의	최소한의 감독으로 자율적으로 행동하고 결정을 내리며 목표를 달성하도록 설계된 AI 시스템입니다.
주요 기능	자율성, 적응성, 목표 지향성 및 상황 이해.
작동 방식	기계 학습, 자연어 처리 및 추론을 사용하여 복잡한 문제를 해결합니다.
응용 분야	개인 비서, 자율 주행 차량, 의료 및 비즈니스 자동화.
장점	구조화되지 않은 환경에서 작동합니다. 동적 시나리오에 적응합니다. 생성 AI의 유용성을 확장합니다.
윤리적 고려 사항	책임 및 투명성에 대한 우려를 제기합니다. 안전한 사용을 위한 윤리적 지침이 필요합니다.

1. 하이브리드 에이전트 시대가 도래했습니다.

순수한 브라우징은 비효율적입니다. 순수한 추론만으로는 충분하지 않습니다. 최고의 에이전트는 내부 추론과 스마트 도구 사용을 혼합하여 접근 방식을 동적으로 조정합니다.

2. 벤치마크가 혁신을 주도하고 있습니다.

Codeforces가 AI 코드 생성을 형성한 것처럼 BrowseComp는 에이전트 행동에 대한 연구를 형성할 것입니다. 실험실은 다음을 기대합니다.

역전 스타일 검색 작업에 대해 모델을 명시적으로 훈련합니다.
쿼리에서 지속하고 적응하는 모델을 우선시합니다.

3. 자신감 기반 아키텍처가 승리할 것입니다.

내부적으로 언제 옳다고 판단할 수 있는 모델이 지배할 것입니다. 이를 통해 다음이 가능합니다.

재시도 루프
확신이 들면 자가 종료
Best-of-N과 같은 집계 전략

4. 작업별 에이전트 훈련이 가속화될 것입니다.

범용 에이전트는 성능이 저조합니다. 이 정확한 작업에서 뛰어난 성능을 발휘하도록 구축된 Deep Research는 GPT-4o보다 25배 이상 뛰어난 성능을 보였습니다. 수직적 특정 미세 조정은 경쟁력 있는 에이전트 배포를 위한 단기적인 경로가 될 가능성이 높습니다.

5. 검증 우선 평가가 전략적 이점입니다.

답변을 찾기 어렵지만 검증하기 쉬운 벤치마크는 엔터프라이즈 통합을 훨씬 쉽게 만듭니다. 이는 다음과 같은 분야에 필수적입니다.

법률 연구
재무 실사
학술적 종합
경쟁 정보

BrowseComp는 AI 연구 에이전트의 미래에 대한 스트레스 테스트입니다.

BrowseComp는 화려하지 않습니다. 재치 있는 언어유희나 유창한 생성을 보상하지 않습니다. 대신, 훨씬 더 지속적인 것, 즉 불확실성 속에서 전략적 정보 사냥을 목표로 합니다. 이는 실제 연구를 수행하고, 통찰력을 이끌어내거나 자율 워크플로를 지원하는 데 신뢰할 수 있는 AI 에이전트의 초석입니다.

OpenAI가 BrowseComp를 “완전하지는 않지만 유용하다”고 솔직하게 표현하는 것은 바로 장기적인 신뢰성을 제공합니다. 모든 사용자 쿼리를 시뮬레이션한다고 가장하지 않고, 어렵고 측정되지 않은 기술, 즉 찾기 쉽지 않은 것을 찾는 능력을 분리합니다.

기술 전문가, 투자자 및 AI 도구를 구축하거나 지원하는 임원에게: 이것이 다음 전장입니다. 누가 대화를 잘하는지 뿐만 아니라, 누가 깊이 파고들어 모호함을 통해 추론하고 시끄러운 웹에서 숨겨진 신호를 찾을 수 있는지입니다.