본문 바로가기
배움: MBA, English, 운동

Claude 3.5 Sonnet 및 Claude 3.5 Haiku 출시

by Heedong-Kim 2024. 11. 1.

2024년 10월 23일

 

오늘 우리는 업그레이드된 Claude 3.5 Sonnet과 새 모델인 Claude 3.5 Haiku를 발표합니다. 새롭게 개선된 Claude 3.5 Sonnet은 전반적인 성능 향상을 이루었으며, 특히 이미 선두에 있던 코딩 분야에서 큰 발전을 이루었습니다. 또한, Claude 3.5 Haiku는 동일한 비용과 유사한 속도로 이전 모델인 Claude 3 Opus와 동일한 성능을 발휘하며, 많은 평가 기준에서 뛰어난 성능을 자랑합니다.

 

또한, 새롭고 획기적인 기능인 ‘컴퓨터 사용’이 퍼블릭 베타 버전으로 도입되었습니다. 이제 API를 통해 개발자들은 Claude가 화면을 보고, 커서를 이동하고, 버튼을 클릭하며, 텍스트를 입력하는 방식으로 컴퓨터를 조작할 수 있습니다. Claude 3.5 Sonnet은 공개 베타에서 이러한 컴퓨터 사용 기능을 제공하는 최초의 AI 모델이며, 현재는 다소 번거롭고 오류가 발생할 가능성이 있지만, 개발자의 피드백을 통해 빠르게 개선될 것으로 기대됩니다.

 

Asana, Canva, Cognition, DoorDash, Replit, The Browser Company 등 여러 기업이 이미 이 기능을 활용하여 복잡한 작업을 수행하고 있으며, Replit은 Claude 3.5 Sonnet의 컴퓨터 사용 및 UI 탐색 기능을 활용하여 앱 평가 기능을 Replit Agent 제품에 적용하고 있습니다.

 

 

Claude 3.5 Sonnet: 업계 선두의 소프트웨어 엔지니어링 능력

 

업그레이드된 Claude 3.5 Sonnet은 다양한 업계 벤치마크에서 큰 개선을 보여주며, 특히 에이전틱 코딩 및 도구 사용 작업에서 뛰어난 성능을 발휘합니다. 코딩 부문에서는 SWE-bench Verified에서 33.4%에서 49.0%로 성능이 향상되어, 공개적으로 사용 가능한 모든 모델을 능가합니다. 또한, TAU-bench에서는 소매 분야에서 62.6%에서 69.2%, 항공사 분야에서는 36.0%에서 46.0%로 향상되었습니다. 새로운 Claude 3.5 Sonnet은 이러한 성능을 동일한 가격과 속도로 제공하므로, 더 큰 효율성과 가치를 제공합니다.

 

초기 사용자 피드백에 따르면, 업그레이드된 Claude 3.5 Sonnet은 AI 기반 코딩에서 중요한 도약을 나타냅니다. GitLab은 이 모델을 DevSecOps 작업에 테스트한 결과, 강력한 추론 성능을 제공함으로써 소프트웨어 개발의 다단계 프로세스에서 이상적인 선택이 될 수 있음을 확인했습니다. 또한 Cognition은 새 Claude 3.5 Sonnet을 AI 자율 평가에 사용하여 이전 버전과 비교해 코딩, 계획 및 문제 해결에서 상당한 개선을 경험했다고 합니다.

 

 

Claude 3.5 Haiku: 최첨단 성능과 경제성의 조화

 

Claude 3.5 Haiku는 이전 세대의 가장 빠른 모델을 계승하면서 모든 기능에서 향상되었습니다. 동일한 비용과 속도로 Claude 3 Opus를 능가하며, 특히 코딩 작업에서 강점을 보입니다. 예를 들어, SWE-bench Verified에서 40.6%를 기록하여 여러 최신 모델을 능가합니다. Claude 3.5 Haiku는 사용자 대상 제품, 전문 하위 에이전트 작업 및 대량 데이터 처리에 적합하며, 구매 내역, 가격 또는 재고 기록 등의 정보를 활용한 맞춤형 경험을 제공합니다.

 

 

Claude의 컴퓨터 사용 학습과 안전성

 

컴퓨터 사용 기능은 기존에 특정 도구로 개별 작업을 해결하던 방식과는 달리, Claude에게 일반적인 컴퓨터 기술을 학습시키는 방향으로 나아가고 있습니다. 이를 위해 Claude가 컴퓨터 인터페이스를 인식하고 상호작용할 수 있는 API를 구축했습니다. OSWorld의 평가에서 Claude 3.5 Sonnet은 스크린샷만으로 작업을 수행하는 항목에서 14.9%를 기록하여, 차점 모델의 7.8%를 크게 능가했습니다.

 

앞으로의 전망

이번 기술의 초기 배포를 통해, 더욱 강력한 AI 시스템의 잠재력과 그 영향력을 이해하는 데 도움이 될 것입니다. 새 모델과 컴퓨터 사용 베타 버전에 대한 피드백을 환영하며, 이를 통해 더 다양한 가능성이 열릴 것으로 기대합니다.