무슨 일이 있었나요?
애플이 사용자 인터페이스(UI)를 여러 플랫폼에서 보다 잘 해석하기 위해 특별히 설계된 업그레이드 모델인 페렛-v2를 공개했습니다. 페렛-v2는 새로운 가능성을 제공하는 세 가지 중요한 혁신을 포함하고 있습니다. 여기에는 더욱 선명한 시각적 이해를 위한 고해상도 기초, 풍부한 맥락 이해를 위한 다중 세분화 인코딩, 고해상도 이미지의 밀착 정렬에 초점을 맞춘 새로운 3단계 훈련 패러다임이 포함됩니다. 이러한 혁신으로 페렛-v2는 다중 모달 대형 언어 모델(MLLM) 분야에서 선두주자로 자리매김했습니다.
이 모델은 애플의 생태계에 통합되어 있으며, 아이폰, 아이패드, 안드로이드 플랫폼, 웹 브라우저, 심지어 애플 TV와 같은 여러 장치에서 작동하는 혁신적인 향상을 제공합니다. 페렛-v2의 높은 UI 요소 인식 성능은 소비자 기술에서 적응형 AI에 대한 애플의 의지를 강조합니다. 따라서 애플은 사용자 상호작용과 접근성의 경계를 확장하여 페렛-v2를 다음 세대의 지능형 다중 모달 애플리케이션의 핵심 요소로 만들고자 합니다.
주요 포인트
-
향상된 시각 처리: 페렛-v2의 “모든 해상도” 기초 기능은 모델이 고해상도 이미지를 보다 세밀하게 해석할 수 있게 하여 다양한 화면 유형에서 UI 요소를 처리하는 데 더욱 유연성을 제공합니다.
-
다중 세분화 인코딩: 강력한 인코더인 DINOv2를 도입하여 페렛-v2는 전반적이고 세부적인 시각 정보를 모두 처리할 수 있어 사용자 의도를 더욱 풍부하게 이해할 수 있습니다.
-
다양한 플랫폼 사용성: 놀라운 UI 인식 점수를 기록하며 페렛-v2는 아이패드에서 68%, 안드로이드 장치에서 71%의 정확도를 보여주며 플랫폼 간 UI 상호작용에서 선두주자로 자리잡았습니다.
-
시리 통합 가능성: 애플의 CAMPHOR 프레임워크는 페렛-UI의 고급 기능을 시리와 통합할 수 있어 가상 비서가 복잡한 작업을 수행하고 음성 명령으로 앱을 탐색할 수 있게 할 것입니다.
깊이 있는 분석
페렛-v2는 단순한 업데이트 이상의 것인데, 세밀한 UI 상호작용을 관리할 수 있는 강력한 AI를 만들기 위한 애플의 주요 도약을 나타냅니다. 이 모델의 기초, 인코딩 및 훈련에서의 세 가지 향상은 시각적 신호를 이해하고 반응하는 데 있어 새로운 수준의 정밀성을 제공합니다.
가장 중요한 업그레이드 중 하나는 DINOv2에 의해 촉진되는 다중 세분화 비주얼 인코딩입니다. 이 인코더 덕분에 페렛-v2는 이미지의 세부적인 특징과 넓은 측면을 모두 파악할 수 있어, 아이콘, 텍스트 필드 및 메뉴와 같은 서로 다른 UI 요소를 더 명확하게 구분할 수 있습니다. 복잡한 UI 레이아웃을 프로세스하는 능력 덕분에 페렛-v2는 UI 요소 인식에서 경쟁자인 GPT-4V를 초월하여 관련 테스트에서 89.73의 놀라운 점수를 기록했습니다.
이 모델은 플랫폼 간 사용성을 위한 적응형 구조의 힘을 잘 보여줍니다. 사용자 의도를 이해하는 데 우선순위를 두어 UI 요소 간의 공간적 관계를 해석하고 처리할 수 있게 하여 고정된 클릭 좌표에 의존하지 않도록 합니다. 이는 모바일 폰에서 웹 브라우저, 애플 TV에 이르기까지 다양한 장치에서 앱을 처리할 수 있는 에플의 접근 방식에서의 중요한 변화를 나타냅니다. 그러나 모바일 장치와 TV 및 웹 인터페이스와 같은 대형 화면 플랫폼 간의 전환에서는 화면 레이아웃의 차이로 인해 약간의 도전이 있었으며, 이는 향후 개선이 필요한 부분입니다.
당신이 알고 있었나요?
-
산업 맥락: 애플의 페렛-v2 출시로 마이크로소프트의 OmniParser와 안트로픽의 Claude 3.5 Sonnet과 직접 경쟁하게 되었습니다. 두 모델 모두 비슷한 플랫폼 간 UI 상호작용을 달성하려고 하지만, 페렛-v2의 맥락 중심 접근 방식과 고급 인코더 및 고해상도 처리로 인해 페렛-v2가 상당한 이점을 얻을 수 있습니다.
-
시리의 잠재적 진화: 페렛-UI의 기능과 애플의 CAMPHOR 프레임워크의 통합은 시리가 곧 전문 AI 에이전트와의 협업 및 자연어를 사용하여 앱이나 웹 페이지를 자율적으로 탐색하는 더 고급 작업을 수행할 수 있다는 것을 시사합니다.
-
접근성을 넘어서: 페렛-v2의 세밀한 공간 인식은 접근성에서도 응용 가능성이 있습니다. 시각장애인을 돕기 위해 처음 목표한 화면 요약 기능은 조만간 완전 적응형 음성 제어 기술 환경을 만드는 데 유용할 수 있어, 애플 생태계 전반의 사용자 상호작용을 더욱 변화시킬 것입니다.
애플이 페렛-v2의 기능을 계속 다듬어 나가면서, 사용자 상호작용을 혁신할 수 있는 잠재력은 매끄러운 탐색에서 높은 수준의 자동화까지 폭넓게 확장되어 플랫폼 간 UI 통합의 유망한 미래를 시사하고 있습니다.