쿄타이 모시: 실시간으로 듣고, 말하고, 감정을 이해하는 혁신적인 AI 공개

쿄타이 모시: 실시간으로 듣고, 말하고, 감정을 이해하는 혁신적인 AI 공개

작성자
Marcelo Sanchez Delgado
7 분 독서

큐타이, 혁신적인 AI 모델 '모시' 공개: 실시간 멀티모달 상호작용의 도약

큐타이는 인공지능(AI) 발전에 전념하는 선구적인 비영리 연구소로, 최신 혁신인 모시 챗을 공개했습니다. 이 혁신적인 실시간 네이티브 멀티모달 기반 모델은 AI 기술의 중요한 이정표를 나타냅니다. 최근 발표된 모시는 동시에 듣고 말하는 능력과 같은 뛰어난 기능으로 광범위한 관심을 끌었습니다. 이러한 발전은 오픈AI의 GPT-4o와 같은 다른 선도적인 AI 모델이 도입한 기능을 능가합니다.

큐타이는 음성 입력과 출력을 동시에 처리하여 실시간 상호작용을 혁신하도록 설계된 AI 모델인 모시 챗을 소개했습니다. 이 발표는 기술 업계에 파문을 일으켰으며, 모시의 감정 이해 및 표현, 다양한 억양으로 말하기, 이중 오디오 스트림 처리 능력을 강조했습니다. 이러한 실시간 상호작용은 헬륨이라는 70억 개의 매개변수를 가진 언어 모델을 활용한 텍스트 및 오디오 데이터를 통한 정교한 훈련 과정에 의해 지원됩니다. 모시의 미세 조정에는 10만 건의 합성 대화와 별도의 텍스트 음성 변환(TTS) 모델로 생성된 합성 데이터를 훈련하는 과정이 포함되었습니다.

주요 내용

  1. 동시 듣기 및 말하기: 모시는 두 개의 오디오 스트림을 동시에 처리하여 실시간으로 듣고 말할 수 있습니다.
  2. 감정 및 억양 인식: 이 모델은 감정을 이해하고 다양한 억양으로 말할 수 있어 상호작용이 더 자연스럽습니다.
  3. 접근성: 모시의 소형 변형은 맥북이나 일반 규모의 GPU와 같은 소비자 기기에서 실행될 수 있어 사용자 기반을 확대합니다.
  4. 오픈소스 제공: 큐타이는 모시를 오픈소스 프로젝트로 공개하여 AI 커뮤니티 내에서 협업과 투명성을 촉진합니다.
  5. 향후 개선 계획: 큐타이는 사용자 피드백을 반영하여 모델을 개선하고 향상시키기 위해 모시의 더 많은 버전을 출시할 계획입니다.

분석

모시의 개발은 큐타이의 혁신적인 AI 접근 방식을 입증합니다. 이 모델의 실시간으로 음성 입력과 출력을 처리하는 능력은 AI 기술의 큰 발전입니다. 헬륨 언어 모델과 정교한 오디오 처리 시스템을 결합함으로써 모시는 텍스트와 청각 정보의 원활한 흐름을 유지할 수 있습니다. 큐타이의 미미 모델을 기반으로 한 음성 코덱은 오디오 데이터를 300배 압축하여 품질을 유지하면서 데이터 크기를 줄입니다.

훈련 및 미세 조정 과정은 광범위했습니다. 큐타이는 10만 개의 대본에 감정과 스타일을 주석 처리하여 모시가 다양한 감정을 이해하고 전달할 수 있도록 했습니다. TTS 엔진은 라이선스를 받은 보이스 테크 음성으로 20시간 동안 미세 조정되어 70가지 다양한 감정과 스타일을 지원합니다. 이러한 꼼꼼한 접근 방식은 말하는 언어를 이해할 뿐만 아니라 미묘한 차이를 전달하여 상호작용을 더 매력적으로 만드는 모델을 만들어냈습니다.

모시의 효율성은 Scaleway 및 Hugging Face와 같은 플랫폼에서 낮은 대기 시간으로 이중 배치 크기를 처리하는 것으로 증명되었습니다. 이 모델은 CUDA, Metal 및 CPU를 포함한 다양한 백엔드를 지원하며 Rust를 통해 추론 코드를 최적화합니다. 향후 개선 사항으로는 KV 캐싱 및 프롬프트 캐싱 개선과 같은 것들이 성능 향상에 기여할 것으로 예상됩니다.

알고 계셨나요?

  • 윤리적 AI를 위한 워터마킹: 큐타이는 AI 생성 오디오를 감지하기 위해 워터마킹 기술을 도입하여 책임 있는 AI 사용에 대한 약속을 강조했습니다.
  • 빠른 미세 조정: 모시는 30분 미만의 오디오로 미세 조정할 수 있어 사용자가 특정 애플리케이션에 맞게 모델을 맞춤화할 수 있습니다.
  • 광범위한 적용: 모시의 기능은 연구 지원, 언어 학습, 브레인스토밍 등의 새로운 가능성을 열어줍니다.
  • 기술 거물 지지: 큐타이의 AI 연구는 구글, 엔비디아, 메타, 스탠퍼드, MIT, 마이크로소프트와 같은 선도적인 기술 회사 및 학술 기관의 연구원들이 인정하고 따르고 있습니다.

모시 챗의 개발은 큐타이의 책임 있고 협력적인 AI 기술 발전에 대한 약속을 보여줍니다. 오픈소스 제공 및 독특한 기능으로 인해 모시 챗은 AI 환경에서 혁신과 광범위한 채택을 촉진할 변혁의 도구로 자리 잡을 것입니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요