GPT-4.5 실망: OpenAI 최신 버전의 현실

GPT-4.5, 기대에 못 미치다: OpenAI 최신 버전의 현실

AI 업계의 거물이 혁신적인 발전 대신 점진적인 업데이트를 내놓았을 때 어떤 일이 벌어질까요?

OpenAI의 GPT-4.5 출시를 두고 AI 분야에서 기대와 현실 사이의 간극이 그 어느 때보다 크게 느껴집니다. 소셜 미디어는 며칠 동안 획기적인 발전에 대한 예측으로 떠들썩했습니다. 이전 모델보다 저렴하면서도 훨씬 더 뛰어난 성능을 가진 1조 개의 매개변수를 가진 거대 모델이 등장할 것이라는 기대였습니다. 하지만 OpenAI 자체 시스템 카드에 자세히 설명된 현실은 이와는 다른, 좀 더 냉정한 이야기를 들려줍니다.

한 저명한 AI 투자자는 기술 사양을 검토한 후 저에게 "진보로 위장한 정체입니다. 시장은 엄청난 도약을 기대했지만, 조심스러운 발걸음만 내디뎠습니다."라고 말했습니다.

GPT-4.5의 실체: 소폭 개선, 안전에 집중

OpenAI는 GPT-4.5를 "현재까지 가장 크고 지식이 풍부한 모델"이라고 소개하며, 순수한 STEM 중심의 추론보다는 범용 기능에 초점을 맞춘 설계와 함께 사전 훈련의 추가 확장을 강조합니다. 이 모델은 표준 지도 학습 및 인간 피드백 강화 학습과 함께 개선된 지도 기술을 사용합니다.

하지만 시스템 카드를 자세히 살펴보면 진화적인 접근 방식을 취하고 있음을 알 수 있습니다. 사용자에게 가장 중요한 벤치마크인 실제 성능 기능은 GPT-4o에 비해 최소한의 개선만 보여줍니다.

가장 확실한 증거는 최근에 도입된 소프트웨어 엔지니어링 작업을 위한 벤치마크인 SWE-Lancer에서 나옵니다. 여기서 GPT-4.5는 이전 모델에 비해 약간의 우위만 보입니다. 즉, 대부분의 실제 응용 프로그램에서 두 모델의 성능은 거의 구별할 수 없습니다.

한 업계 관계자는 "마치 젠슨 황이 OpenAI에서 정밀 절단 기술을 시연하는 것 같습니다."라며 NVIDIA CEO와 개선의 외과적이고 점진적인 성격을 언급했습니다.

안전 우선: GPT-4.5의 진정한 목표

성능 향상은 미미하지만 안전 개선은 상당한 관심을 받았습니다.

금지된 콘텐츠 테스트에서 GPT-4.5는 표준 거부 시나리오에서 이전 모델과 유사한 성능을 보였지만 WildChat(비정상적인 인간-AI 대화) 및 XSTest(오해의 소지가 있는 발언) 평가에서 약간의 개선을 보였습니다.
환각 평가에서 GPT-4.5는 PersonQA 평가에서 GPT-4o 및 o1보다 뛰어난 성능을 보였으며, 허위 정보 생성률이 낮았습니다.
공정성 및 편향성 평가는 BBQ 평가에서 GPT-4o와 유사한 성능을 보였지만, 명시적인 질문에 답변할 때는 o1보다 약간 나빴습니다.

기술 문서를 검토한 한 AI 선임 과학자는 "이번 릴리스는 OpenAI가 성능 혁신보다 안전 개선을 우선시하고 있음을 시사합니다. 윤리적 관점에서 볼 때 이는 옹호할 만하지만, 회사의 자체 과장 광고로 인해 시장 기대와의 긴장을 조성합니다."라고 언급했습니다.

비용 문제: 30배 더 비싸다?

가장 우려스러운 점은 GPT-4.5의 경제성에 대한 소문입니다. AI 개발 커뮤니티 내의 여러 소식통에 따르면 이 모델은 GPT-4o뿐만 아니라 다른 주요 경쟁사보다 훈련하고 운영하는 데 훨씬 더 많은 비용이 듭니다.

가격 구조에 대해 알고 있다고 주장하는 한 개발자는 "이 가격으로는 샘 알트만 자신만이 사용할 수 있을 것입니다. 입력 비용은 100만 토큰당 75달러이고, 출력 비용은 100만 토큰당 150달러입니다?????"라고 농담했습니다.

OpenAI는 이러한 수치를 확인하지 않았지만, 한 가지 질문이 남습니다. 미미한 개선이 엄청난 비용 증가를 정당화할 수 있을까요?

시장에 미치는 영향: AI 과장 거품 붕괴

GPT-4.5의 미지근한 데뷔는 AI 부문에 광범위한 영향을 미칠 수 있습니다. 한 저명한 투자자는 이를 업계에 대한 "적색 경고가 아닌 황색 경고"라고 평가했습니다.

"OpenAI의 신중한 반복은 LLM 시장의 비이성적인 과열을 억제할 위험이 있습니다."라고 그들은 설명했습니다. "이는 가치 평가 및 투자 전략에 대한 중요한 현실 점검을 강요합니다. 우리는 AI 과장 거품에 대한 부드러운 핀 찌르기를 보고 있습니다."

그 영향은 주요 이해 관계자에게 파급될 수 있습니다.

경쟁사: Claude 3.7 Sonnet은 당분간 LLM 왕좌를 유지할 것이며, 눈에 띄는 도전자는 없을 것입니다.

OpenAI: 회사는 단기적인 홍보 문제에 직면하지만, 점진적인 이득과 더 높은 비용을 정당화하기 위해 엔터프라이즈 솔루션 및 안전 내러티브로 전환할 수 있습니다. 가치 평가에 대한 조사가 강화되면서 자금 조달이 더 어려워질 수 있습니다.

경쟁사: Anthropic 및 Google과 같은 회사는 GPT-4.5의 실망스러운 출시로 인식된 성능 격차가 좁혀지면서 숨 쉴 공간을 확보합니다. 이는 경쟁사가 OpenAI의 인지된 실패를 활용함에 따라 공격적인 마케팅과 잠재적인 가격 전쟁을 촉발할 수 있습니다.

사용자: 얼리 어답터는 가치 제안에 의문을 제기하고 GPT-4o를 고수할 수 있습니다. 안전에 초점을 맞춘 기업은 약간의 이점을 볼 수 있지만, 획기적인 개선을 기대하는 소비자는 실망할 것입니다.

투자자: 투자자가 점진적인 확장을 넘어 실질적인 ROI와 차별화된 가치를 요구함에 따라 AI 투자의 "묻지마 투자" 시대가 식을 수 있습니다. 이는 대규모 언어 모델뿐만 아니라 AI 인프라 플레이, 특수 응용 프로그램 및 효율성에 초점을 맞춘 회사로의 전환을 촉진할 수 있습니다.

NVIDIA: GPU 수요는 여전히 강세를 유지하고 있지만, "무한 확장" 내러티브는 문제에 직면할 수 있으며, 잠재적으로 효율적인 추론 및 특정 작업을 위한 특수 AI 하드웨어로 초점이 이동할 수 있습니다.

미래: 더 적은 확장, 더 많은 혁신

가장 통찰력 있는 견해는 한 AI 개발자로부터 나왔습니다. "당분간 테스트 시간 확장이 LLM의 주요 방향이 될 것입니다. RWKV, DLM 또는 아직 논문 단계에 있는 다른 아키텍처가 현재 트랜스포머 접근 방식을 혁신하지 않는 한 말입니다."

이러한 관점은 사전 훈련이 추론 모델에 여전히 중요하고 계속 확장될 것이지만, 샘플 효율성이 더 이상 유일한 방법이 아니라는 점을 인정합니다. 개발자가 말했듯이 "우리는 GPT-4.5처럼 원유가 아닌 휘발유를 사용하여 자동차를 운전합니다."

시장은 점차적으로 무차별적인 확장보다 아키텍처 혁신과 알고리즘 효율성을 중요하게 생각할 수 있습니다. 추론 효율성 및 비용 효율적인 모델에 최적화된 회사는 부문이 성숙함에 따라 견인력을 얻을 수 있습니다.

다음 단계: 필요한 수정

GPT-4.5의 "실망"은 궁극적으로 AI 시장에 유익한 것으로 입증되어 확장성에 대한 맹신에서 실제 가치, 효율성 및 진정한 혁신에 대한 보다 실용적인 초점으로 전환될 수 있습니다.

다음 혁신은 단순히 "더 큰" 것이 아니라 더 똑똑하고, 더 효율적이며, 더 전문화될 것입니다. 초기 실망감에도 불구하고 이러한 현실 점검은 시장과 기술 자체에 더 건강한 방향으로 이어질 수 있습니다.

한 투자자가 결론지었듯이 "진정한 AI 골드 러시는 이제 막 시작되었으며, 가장 큰 모델이 아닌 지속 가능하고 가치 있는 AI를 구축하는 사람들이 승리할 것입니다."