본문 바로가기
배움: MBA, English, 운동

GPT-4o mini: 비용 효율적인 지능의 발전

by Heedong-Kim 2024. 7. 24.

가장 비용 효율적인 소형 모델을 소개합니다

Openai.com

 

OpenAI는 지능을 최대한 폭넓게 접근할 수 있도록 하는 데 전념하고 있습니다. 오늘 우리는 가장 비용 효율적인 소형 모델인 GPT-4o mini를 발표합니다. GPT-4o mini는 지능을 훨씬 더 저렴하게 만들어 AI로 구축된 응용 프로그램의 범위를 크게 확장할 것으로 기대됩니다. GPT-4o mini는 MMLU에서 82%를 기록하며 현재 LMSYS 리더보드에서 GPT-41을 능가합니다. 입력 토큰 100만 개당 15센트, 출력 토큰 100만 개당 60센트의 가격으로 이전 최첨단 모델보다 한 자릿수 더 저렴하고 GPT-3.5 Turbo보다 60% 이상 저렴합니다.

 

GPT-4o mini는 저비용과 낮은 지연 시간으로 다양한 작업을 가능하게 합니다. 예를 들어, 여러 모델 호출을 체인 또는 병렬화하는 응용 프로그램(예: 여러 API 호출), 모델에 대량의 컨텍스트를 전달하는 응용 프로그램(예: 전체 코드베이스 또는 대화 내역), 또는 빠르고 실시간 텍스트 응답을 통해 고객과 상호작용하는 응용 프로그램(예: 고객 지원 챗봇) 등이 있습니다.

오늘날 GPT-4o mini는 API에서 텍스트와 비전을 지원하며, 향후 텍스트, 이미지, 비디오 및 오디오 입력과 출력을 지원할 예정입니다. 이 모델은 128K 토큰의 컨텍스트 창을 가지고 있으며, 요청당 최대 16K 출력 토큰을 지원하며, 2023년 10월까지의 지식을 보유하고 있습니다. GPT-4o와 공유되는 개선된 토크나이저 덕분에 비영어 텍스트 처리가 더욱 비용 효율적으로 되었습니다.

 

우수한 텍스트 지능과 멀티모달 추론을 갖춘 소형 모델

 

GPT-4o mini는 학술 벤치마크에서 GPT-3.5 Turbo 및 기타 소형 모델을 능가하며, 텍스트 지능 및 멀티모달 추론에서 뛰어난 성능을 발휘합니다. GPT-4o와 동일한 언어 범위를 지원하며, 외부 시스템과의 데이터 검색 또는 작업 수행을 가능하게 하는 함수 호출에서도 강력한 성능을 보여줍니다. GPT-3.5 Turbo에 비해 긴 컨텍스트 성능이 개선되었습니다.

 

GPT-4o mini는 여러 주요 벤치마크에서 평가되었습니다.

 

  • 추론 작업:
    GPT-4o mini는 텍스트 및 비전을 포함하는 추론 작업에서 다른 소형 모델보다 뛰어나며, 텍스트 지능 및 추론 벤치마크인 MMLU에서 82.0%를 기록하여 Gemini Flash의 77.9%와 Claude Haiku의 73.8%를 능가합니다.

  • 수학 및 코딩 능력:
    GPT-4o mini는 수학적 추론 및 코딩 작업에서 탁월한 성능을 발휘하여 시장에 출시된 이전 소형 모델들을 능가합니다. 수학 추론을 측정하는 MGSM에서 GPT-4o mini는 87.0%를 기록하여 Gemini Flash의 75.5%와 Claude Haiku의 71.7%를 능가합니다. 코딩 성능을 측정하는 HumanEval에서 GPT-4o mini는 87.2%를 기록하여 Gemini Flash의 71.5%와 Claude Haiku의 75.9%를 능가합니다.

  • 멀티모달 추론:
    GPT-4o mini는 멀티모달 추론 평가인 MMMU에서도 강력한 성능을 보여주며 59.4%를 기록하여 Gemini Flash의 56.1%와 Claude Haiku의 50.2%를 능가합니다.

 

모델 개발 과정의 일환으로, 우리는 GPT-4o mini의 사용 사례와 한계를 더 잘 이해하기 위해 신뢰할 수 있는 몇몇 파트너와 협력했습니다. Ramp 및 Superhuman과 같은 회사들은 GPT-4o mini가 GPT-3.5 Turbo보다 영수증 파일에서 구조화된 데이터를 추출하거나 스레드 내역이 제공된 경우 고품질 이메일 응답을 생성하는 작업에서 상당히 더 우수하다고 평가했습니다.

 

내장된 안전 조치 안전은 처음부터 우리의 모델에 내장되어 있으며, 개발 과정의 모든 단계에서 강화됩니다. 사전 학습 시, 혐오 발언, 성인 콘텐츠, 주로 개인 정보를 집계하는 사이트, 스팸과 같은 정보를 모델이 학습하거나 출력하지 않도록 필터링합니다. 사후 학습 시, 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술을 사용하여 모델의 행동을 우리의 정책에 맞추어 모델 응답의 정확성과 신뢰성을 향상시킵니다.

 

GPT-4o mini는 GPT-4o와 동일한 내장 안전 완화를 가지고 있으며, 우리의 준비 프레임워크에 따라 자동 및 인간 평가를 통해 신중하게 평가되었습니다. 사회 심리학 및 잘못된 정보와 같은 분야의 70명 이상의 외부 전문가들이 GPT-4o를 테스트하여 잠재적 위험을 식별했으며, 우리는 이를 해결하고 GPT-4o 시스템 카드 및 준비 점수 카드에 대한 세부 정보를 곧 공유할 계획입니다. 이러한 전문가 평가의 통찰력은 GPT-4o 및 GPT-4o mini의 안전성을 향상시키는 데 도움이 되었습니다.

이러한 학습을 바탕으로, 우리의 팀은 새로운 기술을 적용하여 GPT-4o mini의 안전성을 향상시켰습니다. GPT-4o mini는 API에서 우리의 지침 계층화 방법을 적용한 첫 번째 모델로, 이 방법은 모델이 탈옥, 프롬프트 주입 및 시스템 프롬프트 추출에 저항하는 능력을 향상시킵니다. 이는 모델의 응답을 보다 신뢰할 수 있게 만들고, 대규모 응용 프로그램에서 사용하기에 더 안전하게 만듭니다.

 

우리는 GPT-4o mini의 사용 방식을 계속 모니터링하고 새로운 위험을 식별함에 따라 모델의 안전성을 개선해 나갈 것입니다.

 

사용 가능성 및 가격

 

GPT-4o mini는 현재 Assistants API, Chat Completions API 및 Batch API에서 텍스트 및 비전 모델로 제공됩니다. 개발자는 입력 토큰 100만 개당 15센트, 출력 토큰 100만 개당 60센트를 지불합니다(표준 책에서 약 2500페이지에 해당). 우리는 곧 GPT-4o mini에 대한 미세 조정을 롤아웃할 계획입니다.

 

ChatGPT에서는 Free, Plus 및 Team 사용자가 오늘부터 GPT-3.5 대신 GPT-4o mini에 접근할 수 있으며, 엔터프라이즈 사용자는 다음 주부터 접근할 수 있습니다. 이는 모든 사람들이 AI의 혜택을 누릴 수 있도록 하기 위한 우리의 미션에 부합합니다.

 

 

향후 계획

 

지난 몇 년 동안 AI 지능의 놀라운 발전과 비용의 상당한 감소를 목격했습니다. 예를 들어, GPT-4o mini의 토큰당 비용은 2022년에 도입된 덜 유능한 모델인 text-davinci-003 이후 99% 감소했습니다. 우리는 모델의 기능을 향상시키면서 비용을 계속 낮추는 이 궤도를 유지할 것입니다.

 

우리는 모델이 모든 앱과 모든 웹사이트에 원활하게 통합되는 미래를 상상합니다. GPT-4o mini는 개발자가 강력한 AI 응용 프로그램을 보다 효율적이고 경제적으로 구축하고 확장할 수 있도록 길을 닦고 있습니다. AI의 미래는 더욱 접근 가능하고 신뢰할 수 있으며, 우리의 일상 디지털 경험에 내장되고 있으며, 우리는 그 길을 계속 선도해 나가기를 기대합니다.