새로운 AI 기술이 컴퓨터가 순서를 이해하는 방식을 향상시킵니다
스탠포드 대학, UC 샌디에고, UC 버클리, 그리고 메타 AI의 연구원들이 컴퓨터가 텍스트의 문장과 같은 정보의 순서를 처리하는 방식을 개선하는 새로운 기술을 개발했습니다. 이 혁신적인 기술인 Test-Time Training(TTT) 레이어는 컴퓨터가 긴 데이터 순서를 더 잘 이해하고 예측하도록 돕습니다. 이 연구는 유 선과 신하오 리가 이끌었으며, 2024년 7월 5일에 발표되었습니다.
주요 내용
- Test-Time Training(TTT) 레이어: 이 새로운 레이어는 컴퓨터가 사용 중에도 학습하고 이해력을 향상시킬 수 있게 합니다.
- 두 가지 모델: 연구진은 간단하고 효율적인 TTT-Linear와 더 복잡하지만 긴 순서를 처리하는 데 더 큰 잠재력을 가진 TTT-MLP를 소개했습니다.
- 성능 향상: 두 모델 모두 특히 긴 순서에서 현재 최고의 기술보다 더 잘 작동했습니다.
- 효율성: TTT-Linear는 긴 순서를 처리하는 속도가 최고의 Transformer 모델보다 빠릅니다.
분석
새로운 TTT 레이어는 데이터 순서를 처리하는 데 일반적으로 사용되는 순환 신경망(RNN)의 전통적인 방법을 개선합니다. 전통적인 RNN은 기억이 제한적이기 때문에 긴 순서에 어려움을 겪는 경우가 많습니다. TTT 레이어는 사용 중에도 지속적으로 학습하고 기억을 업데이트하여 긴 순서를 처리하는 능력을 높입니다.
연구진은 두 가지 버전을 테스트했습니다:
- TTT-Linear: 속도와 성능의 균형을 맞춘 간단하고 효율적인 모델.
- TTT-MLP: 메모리 문제에도 불구하고 매우 긴 순서를 처리하는 데 잠재력을 보여주는 더 복잡한 모델.
테스트에서 이 모델들은 1.25억에서 13억 개의 매개변수(모델의 복잡성을 측정하는 단위)를 가졌습니다. 이들은 긴 순서에서도 정확도를 유지하거나 향상시켰는데, 이는 전통적인 RNN에게는 어려운 일입니다.
또한, 이 연구는 이러한 새로운 모델을 현재 하드웨어에서 효율적으로 작동시키는 실용적인 방법을 소개했습니다. 예를 들어, TTT-Linear는 이미 긴 순서를 처리하는 속도가 Transformer 모델보다 빠릅니다.
알고 계셨나요?
- 복잡성의 중요성: Transformer와 같은 전통적인 모델은 순서 길이가 증가함에 따라 실행 비용이 더 많이 들어가는데, 그 이유는 처리 복잡성이 제곱으로 증가하기 때문입니다. TTT 레이어는 이러한 복잡성을 선형으로 유지하여 긴 순서에 더 효율적입니다.
- 실시간 학습: TTT 레이어는 인간이 새로운 정보로부터 지속적으로 학습하는 것과 유사하게 자기 지도 학습을 사용하여 각 순서마다 기억을 업데이트합니다.
- 배경: 이 새로운 기술은 2020년 OpenAI의 연구에서 밝혀진 이전 RNN의 긴 순서를 효과적으로 처리하는 데 있어서의 한계를 해결합니다.
이 새로운 기술은 컴퓨터가 대량의 텍스트 및 기타 순차적 데이터를 처리하는 방식을 크게 개선할 수 있으며, 인공지능의 다양한 응용 분야에 도움이 될 것입니다. 연구진은 그들의 코드를 GitHub에 공개하여 커뮤니티가 그들의 작업을 바탕으로 구축할 수 있도록 했습니다.