GPT-4가 새로운 지평을 연다: AI, 역사적 연구에서 튜링 테스트 통과
UC 샌디에이고 연구진의 최근 연구는 ELIZA, GPT-3.5, GPT-4 등 3가지 AI 시스템의 성능을 무작위 통제 튜링 테스트를 통해 평가했다. 그 결과 GPT-4는 54%의 합격률을 보여 ELIZA(22%)를 능가했지만, 실제 인간(67%)에는 미치지 못했다. 이는 대화형 2인용 튜링 테스트에서 AI가 합격한 첫 번째 강력한 실증적 사례로, GPT-4의 인간 대화 행동 모방 능력이 향상되었음을 보여준다.
튜링 테스트는 앨런 튜링이 1950년에 처음 제안한 것으로, 인간 심사관이 기계와 사람 간의 자연어 대화에 참여하여 둘을 구분할 수 있는지를 평가한다. 기계가 심사관을 속여 구분할 수 없다면 테스트를 통과한 것으로 간주된다. 시간이 지남에 따라 테스트 통과의 기준은 다양하게 해석되었는데, 일부는 더 엄격한 기준을 적용했다. 일부 해석에 따르면 기계가 50% 이상 심사관을 속이면 테스트를 통과한 것으로 볼 수 있다. 이 기준에 따르면 54%의 합격률을 보인 GPT-4는 테스트를 통과했다고 할 수 있다.
주요 결과
- GPT-4의 성과: GPT-4는 54%의 경우에서 인간으로 인식되어 이전 AI 모델에 비해 큰 향상을 보였다.
- 다른 모델과의 비교: GPT-4는 GPT-3.5(50%)와 ELIZA(22%)를 능가하는 튜링 테스트 성과를 보였다.
- 인간 식별: 인간 참가자는 67%의 정확도로 식별되었는데, 이는 AI가 아직 인간의 대화 능력을 완전히 따라잡지 못했음을 시사한다.
- 판단에 영향을 미치는 요인: 이 연구는 참가자들이 전통적인 지능 개념보다는 언어 스타일과 사회정서적 단서에 더 의존했음을 보여주었다.
- 튜링 테스트 통과: 일부 학계의 기준에 따르면 50% 임계값을 넘기면 테스트를 통과한 것으로 간주된다. 이 기준에 따르면 GPT-4는 튜링 테스트를 통과한 것으로 볼 수 있다.
분석
이 연구 결과는 AI 시스템 개발 및 배포에 큰 영향을 미칠 것이다. 앨런 튜링이 1950년에 제안한 튜링 테스트는 기계가 실제 인간과 구분할 수 없을 정도로 인간과 유사한 행동을 보이는지를 평가한다. GPT-4의 이번 테스트 성과는 AI 개발의 중요한 이정표를 보여주며, 자연스럽고 유창한 대화를 할 수 있는 잠재력을 시사한다.
이 실험에는 500명의 참가자가 5분간 인간 또는 AI 모델과 대화하고 상대방이 인간인지 판단했다. GPT-4의 높은 합격률은 이 모델이 인간 행동을 설득력 있게 모방할 수 있음을 보여준다. 이는 사회적, 경제적 맥락에서 AI의 미래에 대한 질문을 제기한다. 연구진은 또한 대화의 사교성과 감정적 단서에 집중하는 것이 인간과 AI를 구분하는 데 더 효과적이라는 것을 발견했다.
GPT-4가 튜링 테스트를 통과했다는 점을 고려할 때, OpenAI의 최신 모델 GPT-4o도 더 나은 성과를 보일 것으로 확신한다.
알아두면 좋은 사실
- 튜링 테스트는 앨런 튜링이 1950년에 처음 제안한 것으로, 기계가 인간과 구분할 수 없을 정도로 지적 행동을 보이는지를 측정하는 방법이다.
- ELIZA는 1960년대에 개발된 단순한 규칙 기반 채팅봇으로, 사용자들에 의해 의인화되었다.
- 이번 연구 결과는 GPT-4와 같은 현재의 AI 시스템이 사람들을 속여 자신을 인간으로 착각하게 할 수 있다는 것을 보여주며, 이는 온라인 상호작용과 디지털 커뮤니케이션에 대한 신뢰에 큰 영향을 미칠 수 있다.