본문 바로가기
배움: MBA, English, 운동

OpenAI o1 - LLM을 통해 추론을 학습하기

by Heedong-Kim 2024. 9. 13.

우리는 복잡한 추론을 수행하기 위해 강화 학습으로 훈련된 새로운 대형 언어 모델 OpenAI o1을 소개합니다.

o1은 응답하기 전에 생각하는 모델로, 사용자에게 응답하기 전에 내부적으로 긴 사고 과정을 거쳐 문제를 해결합니다.

 

OpenAI o1은 경쟁 프로그래밍 질문(Codeforces)에서 상위 89%에 속하며, 미국 수학 올림피아드(AIME) 예선에서 미국 상위 500명의 학생들 사이에 들었고, 물리학, 생물학, 화학 문제 벤치마크(GPQA)에서 박사 수준의 정확도를 초과합니다. 이 새로운 모델을 현재 사용 중인 모델처럼 쉽게 사용할 수 있도록 작업은 계속 진행 중이지만, o1-preview라는 초기 버전을 ChatGPT와 신뢰받는 API 사용자에게 즉시 제공할 예정입니다.

 

우리의 대규모 강화 학습 알고리즘은 모델이 자신의 사고 과정을 사용하여 생산적으로 생각하는 법을 가르치며, 매우 데이터 효율적인 훈련 과정을 통해 이루어집니다. o1의 성능은 더 많은 강화 학습(훈련 시간 계산)과 더 많은 사고 시간(테스트 시간 계산)을 투자할수록 꾸준히 개선되는 것으로 나타났습니다. 이 접근 방식을 확장하는 데 필요한 제약은 LLM 사전 훈련과 상당히 다르며, 우리는 이를 계속 조사하고 있습니다.

 

Evals

o1이 GPT-4o보다 더 나은 추론 성능을 보여준다는 점을 강조하기 위해, 다양한 인간 시험 및 기계 학습 벤치마크에서 모델을 테스트했습니다. 우리는 대부분의 이러한 추론 중심 작업에서 o1이 GPT-4o를 크게 능가하는 것을 확인했습니다. 특별히 명시되지 않은 한, o1은 최대 테스트 시간 계산 설정에서 평가되었습니다.

 

 

 

많은 추론 중심 벤치마크에서 o1은 인간 전문가의 성능에 필적합니다. 최근 프런티어 모델들은 수학(MATH)과 GSM8K에서 매우 우수한 성적을 거두었기 때문에 이러한 벤치마크는 더 이상 모델 간 차이를 구별하기에 효과적이지 않습니다. 우리는 수학 성능을 미국에서 가장 우수한 고등학생들을 대상으로 하는 AIME 시험에서 평가했습니다. 2024년 AIME 시험에서 GPT-4o는 평균적으로 12%(1.8/15) 문제를 해결한 반면, o1은 한 번의 샘플링으로 74%(11.1/15)를, 64개의 샘플을 종합하여 83%(12.5/15)를 해결했습니다. 1000개의 샘플을 재순위화한 경우, o1은 93%(13.9/15)를 기록했으며, 이는 미국 상위 500명의 학생 중 한 명에 해당하며, 미국 수학 올림피아드 참가 자격을 넘는 성과입니다.

 

우리는 또한 GPQA diamond, 즉 화학, 물리학, 생물학에 대한 전문 지식을 평가하는 어려운 벤치마크에서 o1을 평가했습니다. 모델을 인간과 비교하기 위해 우리는 박사 학위를 가진 전문가들을 모집해 GPQA-diamond 문제를 풀게 했습니다.

 

그 결과 o1이 이러한 인간 전문가들의 성능을 뛰어넘어 이 벤치마크에서 처음으로 인간을 능가한 모델이 되었습니다. 이러한 결과는 o1이 모든 면에서 박사보다 더 뛰어나다는 것을 의미하는 것은 아니며, 단지 일부 문제에서 o1이 박사 수준의 전문가가 해결할 수 있는 문제를 더 잘 해결할 수 있음을 나타냅니다. 다른 여러 기계 학습 벤치마크에서도 o1은 최신 모델을 능가했습니다. 시각적 인식 기능이 활성화된 o1은 MMMU에서 78.2%의 점수를 기록하여 인간 전문가와 경쟁할 수 있는 최초의 모델이 되었습니다. 또한 MMLU의 57개 하위 범주 중 54개에서 GPT-4o보다 더 우수한 성능을 보였습니다.

Chain of Thought

어려운 질문에 답하기 전에 사람이 오랜 시간 동안 생각하는 것과 마찬가지로, o1은 문제를 풀기 위해 사고 과정을 사용합니다. 강화 학습을 통해 o1은 자신의 사고 과정을 갈고 닦고, 사용하는 전략을 정교하게 다듬는 법을 배웁니다. 실수를 인식하고 교정하는 법을 배우며, 어려운 단계를 더 간단한 단계로 나누는 방법을 배웁니다. 현재 접근법이 효과가 없을 때 다른 접근법을 시도하는 법을 배우기도 합니다. 이 과정은 모델의 추론 능력을 크게 향상시킵니다.

 

 


코딩


우리는 프로그래밍 기술을 향상시키기 위해 o1을 초기화한 후 추가적으로 훈련하여 2024 국제 정보 올림피아드(IOI)에서 213점을 획득하고 49번째 백분위수에 진입한 모델을 훈련했습니다. 이 모델은 인간 참가자와 동일한 조건에서 2024년 IOI에 참가했으며, 6개의 알고리즘 문제를 해결하기 위해 10시간이 주어졌고 문제당 50번의 제출 기회가 허용되었습니다.

각 문제에 대해 시스템은 여러 후보 제출을 샘플링한 후 IOI 공개 테스트 케이스, 모델 생성 테스트 케이스, 학습된 채점 함수를 기반으로 50개의 제출을 선택했습니다. 무작위로 제출했을 경우 평균 156점을 기록했을 것이라는 점에서 이 전략이 대회 조건에서 약 60점을 더해준 것을 알 수 있었습니다.

 

제출 제한이 완화되었을 때, 모델 성능이 크게 향상되었습니다. 문제당 10,000번의 제출이 허용되었을 때, 모델은 테스트 시간 선택 전략 없이도 362.14점을 기록하며 금메달 기준을 넘겼습니다.

마지막으로, 우리는 이 모델의 코딩 기술을 입증하기 위해 Codeforces에서 주최하는 경쟁 프로그래밍 대회를 시뮬레이션했습니다. 우리의 평가 방식은 대회 규칙을 엄격히 준수하며 10회의 제출 기회를 허용했습니다. GPT-4o는 808 Elo 점수로 인간 경쟁자의 하위 11%에 속했습니다. 반면, 이 모델은 1807 Elo 점수를 기록하며 93%의 경쟁자보다 더 나은 성적을 거두었습니다.

 

프로그래밍 대회에 대한 추가 미세 조정이 o1을 더욱 향상시켰습니다. 이 모델은 2024 국제 정보 올림피아드에서 49번째 백분위수에 진입했습니다.

 

인간 선호 평가

시험과 학술 벤치마크 외에도, 우리는 다양한 도메인에서 도전적인 개방형 프롬프트에 대해 o1-preview와 GPT-4o의 인간 선호도를 평가했습니다. 이 평가에서 인간 평가자들은 o1-preview와 GPT-4o의 응답을 익명으로 받아보고 어느 응답을 더 선호하는지 투표했습니다. 데이터 분석, 코딩, 수학과 같은 추론 중심 카테고리에서 o1-preview는 GPT-4o보다 압도적으로 선호되었습니다. 그러나 일부 자연어 처리 작업에서는 o1-preview가 선호되지 않았으며, 이는 모든 사용 사례에 적합하지 않음을 시사합니다.

 

안전성

사고 과정 추론은 정렬 및 안전성에 새로운 기회를 제공합니다. 우리는 모델 행동에 대한 정책을 추론 모델의 사고 과정에 통합하는 것이 인간 가치와 원칙을 강력하게 가르치는 효과적인 방법임을 발견했습니다. 안전 규칙을 가르치고 문맥에서 이에 대해 추론하는 방법을 가르치면서, 우리는 사고 능력이 모델의 견고성에 직접적으로 이익을 준다는 증거를 발견했습니다. o1-preview는 중요한 탈옥 평가 및 모델 안전성 거부 경계를 평가하는 내부 테스트에서 크게 향상된 성과를 보였습니다.

 

 

사고 과정 숨기기 (Hiding the Chains of Thought)


우리는 숨겨진 사고 과정이 모델을 모니터링하는 데 독특한 기회를 제공한다고 믿습니다. 이 사고 과정이 신뢰할 수 있고 해석 가능하다는 가정 하에, 숨겨진 사고 과정을 통해 모델의 '생각'을 읽고 그 사고 과정을 이해할 수 있습니다. 예를 들어, 향후에는 사용자를 조작하려는 징후가 있는지 사고 과정을 모니터링할 수 있을 것입니다. 하지만 이를 가능하게 하려면 모델이 자신의 사고를 자유롭게 표현할 수 있어야 하므로, 사고 과정에 정책 준수나 사용자 선호 사항을 훈련시키지 말아야 합니다. 또한, 잘못 정렬된 사고 과정을 사용자에게 직접 보여주고 싶지 않습니다.

 

따라서 사용자 경험, 경쟁 우위, 사고 과정 모니터링의 가능성을 고려한 끝에, 우리는 사고 과정의 원본을 사용자에게 공개하지 않기로 결정했습니다. 이 결정에는 단점이 있지만, 모델이 사고 과정에서 유용한 아이디어를 응답에 재현할 수 있도록 훈련함으로써 이를 부분적으로 보완하고자 합니다. o1 모델 시리즈에서는 모델이 생성한 사고 과정의 요약을 보여주기로 했습니다.

 

결론 (Conclusion)


o1은 AI 추론 분야에서 중요한 발전을 이룩했습니다. 우리는 이 모델을 지속적으로 개선하여 향후 버전을 출시할 계획입니다. 이러한 새로운 추론 능력은 모델을 인간의 가치와 원칙에 더욱 잘 맞추는 데 도움이 될 것이라고 기대하고 있습니다. o1과 그 후속 모델들은 과학, 코딩, 수학 및 관련 분야에서 AI의 새로운 활용 사례를 열어줄 것이며, 우리는 사용자와 API 개발자가 이를 통해 자신의 일상 업무를 어떻게 개선할 수 있을지 발견하게 될 날을 기대하고 있습니다.