노우스 리서치, 헬메스 3 AI 모델 공개

노우스 리서치, 헬메스 3 AI 모델 공개

작성자
Kai Takahashi
6 분 독서

Nous Research, Hermes 3 AI 모델 공개

Nous Research는 Hermes 3라는 새로운 AI 모델 가족을 발표했습니다. 이 모델은 높은 수준의 제어와 중립성이 특징으로, 윤리적 제약이 있는 다른 모델들과 차별화됩니다. Hermes 3 모델은 8억, 70억, 405억 개의 매개변수를 가진 세 가지 크기로 제공되며, Meta의 오픈 소스 Llama 3.1을 기반으로 구축되었습니다. 이 모델들은 사용자의 명령을 따르는 데 최적화되어 있으며, 사용자가 지정하는 다양한 세계관에 적응할 수 있습니다.

Hermes 3 모델은 추론, 보상 모델링, XML 태그를 포함한 구조화된 출력을 생성하는 등의 작업에서 뛰어난 성능을 보입니다. 또한, 이 모델은 투명한 의사결정을 위한 내부 독백을 생성하고 머메이드 다이어그램과 같은 시각적 콘텐츠를 만들 수 있습니다. 모델은 두 단계의 과정으로 훈련되었으며, 감독된 세밀 조정과 직접 선호 최적화가 포함되었고, 초기 단계에서 거의 4억 개의 토큰을 사용했습니다.

테스트에서 Hermes 3 모델은 좋은 성과를 보였으며, ARC, BoolQ, HellaSwag, IFEval, Winogrande와 같은 벤치마크에서 오픈 소스 모델 중 최상위를 차지했습니다. 이 모델은 추론 작업과 역할극, 글쓰기와 같은 창의적 응용을 혼합하여 훈련되었고, 외부 도구를 사용하고 문서에서 정보를 검색하는 Retrieval Augmented Generation(RAG) 기능도 갖추고 있어 정확하고 관련성 있는 답변을 제공하는 능력이 향상되었습니다.

Hugging Face에서 이용 가능한 Hermes 3 모델은 비즈니스 의사결정부터 창의적 작업까지 다양한 응용 프로그램에서 인정을 받고 있습니다. 전문가들은 Hermes 3가 AI 분야에서 중요한 플레이어로 보고 있으며, 오픈 소스 AI 모델이 비즈니스에 대한 유연성과 비용 효율성을 제공하는 추세를 반영하고 있습니다.

주요 포인트

  • Nous Research는 Meta의 Llama 3.1을 기반으로 한 AI 언어 모델 가족인 Hermes 3를 출시했습니다.
  • Hermes 3 모델은 8억, 70억, 405억 개의 매개변수로 제공되며, 높은 제어력과 중립적 정렬을 위해 설계되었습니다.
  • 이 모델은 추론 및 구조화된 출력과 같은 작업에서 뛰어나며, 공개 벤치마크에서 높은 점수를 얻었습니다.
  • 훈련 과정은 감독된 세밀 조정과 직접 선호 최적화를 포함하며, 약 4억 개의 토큰을 사용했습니다.
  • Hermes 3 모델은 Hugging Face에서 사용할 수 있으며, 외부 도구와 문서 기반 정보 검색을 지원합니다.

분석

Nous Research의 Hermes 3 AI 모델은 Meta의 Llama 3.1을 기반으로 하여 정확한 AI 상호작용이 필요한 산업에 큰 변화를 가져올 수 있습니다. 높은 제어력과 중립적 정렬은 금융, 의료, 법률 분야의 응용을 향상시킵니다. Hugging Face에서의 가용성은 접근성을 넓히고, Nous Research의 시장 점유율을 증가시킬 수 있습니다. 경쟁업체는 Hermes 3의 기능에 맞추기 위해 혁신을 가속화할 수 있습니다. 장기적으로 이 모델은 AI 행동을 표준화하고, 전 세계 윤리적 AI 개발에 영향을 미칠 수 있습니다.

알고 계셨나요?

  • Hermes 3 모델:
  • 설명: Hermes 3는 Nous Research가 개발한 고급 AI 언어 모델 시리즈로, Meta의 오픈 소스 Llama 3.1 아키텍처를 기반으로 합니다. 이 모델은 높은 제어력과 중립성으로 유명하며, 사용자 명령에 엄격히 반응할 수 있습니다. 세 가지 크기—8억, 70억, 405억 매개변수를 갖추고 있으며, 복잡한 작업인 추론, 보상 모델링 및 XML 태그를 사용하는 구조화된 출력을 처리하는 데 설계되었습니다.
  • 직접 선호 최적화(DPO):
  • 설명: 직접 선호 최적화는 Hermes 3 모델 개발에 사용된 훈련 기술입니다. 전통적인 방법은 감독 학습 후 인간 피드백을 통한 강화 학습을 사용하는 반면, DPO는 보상 모델을 통해 표현된 인간의 선호를 기반으로 모델의 응답을 직접 최적화합니다. 이 접근 방식은 훈련 과정을 간소화하고 사용자 의도에 보다 효과적으로 맞추는 데 도움을 줍니다.
  • 검색 보강 생성(RAG):
  • 설명: 검색 보강 생성은 Hermes 3와 같은 AI 모델의 능력을 향상시키는 기술로, 응답 생성 중 외부 정보 소스(문서나 데이터베이스 등)에 접근하고 이를 활용할 수 있게 해줍니다. 이 모델은 이러한 외부 소스에서 관련 정보를 끌어와 보다 정확하고 맥락에 맞는 답변을 제공할 수 있습니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요