새로운 AI 기술이 컴퓨터가 긴 시퀀스를 이해하는 방식을 변화시킵니다

새로운 AI 기술이 컴퓨터가 순서를 이해하는 방식을 향상시킵니다

스탠포드 대학, UC 샌디에고, UC 버클리, 그리고 메타 AI의 연구원들이 컴퓨터가 텍스트의 문장과 같은 정보의 순서를 처리하는 방식을 개선하는 새로운 기술을 개발했습니다. 이 혁신적인 기술인 Test-Time Training(TTT) 레이어는 컴퓨터가 긴 데이터 순서를 더 잘 이해하고 예측하도록 돕습니다. 이 연구는 유 선과 신하오 리가 이끌었으며, 2024년 7월 5일에 발표되었습니다.

주요 내용

Test-Time Training(TTT) 레이어: 이 새로운 레이어는 컴퓨터가 사용 중에도 학습하고 이해력을 향상시킬 수 있게 합니다.
두 가지 모델: 연구진은 간단하고 효율적인 TTT-Linear와 더 복잡하지만 긴 순서를 처리하는 데 더 큰 잠재력을 가진 TTT-MLP를 소개했습니다.
성능 향상: 두 모델 모두 특히 긴 순서에서 현재 최고의 기술보다 더 잘 작동했습니다.
효율성: TTT-Linear는 긴 순서를 처리하는 속도가 최고의 Transformer 모델보다 빠릅니다.

분석

새로운 TTT 레이어는 데이터 순서를 처리하는 데 일반적으로 사용되는 순환 신경망(RNN)의 전통적인 방법을 개선합니다. 전통적인 RNN은 기억이 제한적이기 때문에 긴 순서에 어려움을 겪는 경우가 많습니다. TTT 레이어는 사용 중에도 지속적으로 학습하고 기억을 업데이트하여 긴 순서를 처리하는 능력을 높입니다.

연구진은 두 가지 버전을 테스트했습니다:

TTT-Linear: 속도와 성능의 균형을 맞춘 간단하고 효율적인 모델.
TTT-MLP: 메모리 문제에도 불구하고 매우 긴 순서를 처리하는 데 잠재력을 보여주는 더 복잡한 모델.

테스트에서 이 모델들은 1.25억에서 13억 개의 매개변수(모델의 복잡성을 측정하는 단위)를 가졌습니다. 이들은 긴 순서에서도 정확도를 유지하거나 향상시켰는데, 이는 전통적인 RNN에게는 어려운 일입니다.

또한, 이 연구는 이러한 새로운 모델을 현재 하드웨어에서 효율적으로 작동시키는 실용적인 방법을 소개했습니다. 예를 들어, TTT-Linear는 이미 긴 순서를 처리하는 속도가 Transformer 모델보다 빠릅니다.

알고 계셨나요?

복잡성의 중요성: Transformer와 같은 전통적인 모델은 순서 길이가 증가함에 따라 실행 비용이 더 많이 들어가는데, 그 이유는 처리 복잡성이 제곱으로 증가하기 때문입니다. TTT 레이어는 이러한 복잡성을 선형으로 유지하여 긴 순서에 더 효율적입니다.
실시간 학습: TTT 레이어는 인간이 새로운 정보로부터 지속적으로 학습하는 것과 유사하게 자기 지도 학습을 사용하여 각 순서마다 기억을 업데이트합니다.
배경: 이 새로운 기술은 2020년 OpenAI의 연구에서 밝혀진 이전 RNN의 긴 순서를 효과적으로 처리하는 데 있어서의 한계를 해결합니다.

이 새로운 기술은 컴퓨터가 대량의 텍스트 및 기타 순차적 데이터를 처리하는 방식을 크게 개선할 수 있으며, 인공지능의 다양한 응용 분야에 도움이 될 것입니다. 연구진은 그들의 코드를 GitHub에 공개하여 커뮤니티가 그들의 작업을 바탕으로 구축할 수 있도록 했습니다.

새로운 AI 기술이 컴퓨터가 긴 시퀀스를 이해하는 방식을 변화시킵니다

새로운 AI 기술이 컴퓨터가 순서를 이해하는 방식을 향상시킵니다

주요 내용

분석

알고 계셨나요?

당신도 좋아할지도 모릅니다

뉴스레터 구독하기