본문 바로가기
배움: MBA, English, 운동

EXAONE 3.0 : 글로벌 최고 수준 성능을 자랑하는 첫 오픈소스 LLM 소개 - LG AI 연구원

by Heedong-Kim 2024. 8. 11.

LG AI 연구소의 EXAONE은 지난 3년간 1.0 버전에서 3.0 버전으로 발전하며, 매년 업그레이드된 모델과 외부 상용화 결과를 발표하는 과정에서 쉽지 않은 여정을 걸어왔습니다. 다양한 산업에서 AI 기술 개발 잠재력을 하나씩 입증하면서, 성능과 비용 두 축 사이에서 사용자가 더 잘 활용할 수 있는 모델을 만들었으며, 실제 산업 현장에서 적용 가능한 전문가 수준의 AI를 개발했습니다.

LG AI 연구

 

EXAONE 주요 성과

 

EXAONE 3.0 7.8B Instruction Tuned 언어 모델 출시

 

2024년 8월, 드디어 EXAONE 3.0을 발표하게 되었습니다. 다양한 EXAONE 3.0 언어 모델 라인업 중에서, 이번에는 연구용으로 오픈 소스된 7.8B Instruction Tuned 모델을 출시합니다. 이 모델이 한국 및 해외의 AI 연구자들이 더 의미 있는 연구를 수행하고, AI 생태계의 발전에 기여하길 바랍니다.

 

이번에 공개된 7.8B 모델은 최근 트렌드에 맞춰 디코더-온리 트랜스포머 아키텍처를 기반으로 하며, 7.8B 파라미터와 8T의 학습 데이터를 사용했습니다(토큰 기준). 이 글에서는 EXAONE 3.0 7.8B Instruction Tuned 언어 모델의 주요 기능, 성능 평가 결과 및 인사이트를 소개합니다. 성능 평가를 위해 공개된 데이터셋과 자체 벤치마크 데이터셋을 결합하여, 7.8B 모델을 최신 AI 모델들과 비교 평가했습니다. 이 모델들은 영어와 한국어를 지원하며, 7.8B 모델과 유사한 크기입니다.

 

 

주요 포인트

 

■ 영어에서 글로벌 최고 수준 성과 : 실세계 사용 사례에서 평균 1위, 벤치마크에서 뛰어난 성능

 

7.8B 모델의 영어 성능은 다른 모델과 비교하여 글로벌 최고 수준에 도달했습니다. EXAONE은 전문 산업에서 활용될 수 있는 고수준의 전문가 AI를 목표로 하고 있습니다. AI 모델이 전문 산업과 전문가 분야에서 활용되기 위해서는 복잡한 방식으로 잘 수행되어 인간이 신뢰하고 사용할 수 있어야 합니다. 이를 평가하기 위해 최근 널리 사용되는 Chatbot Arena 방법을 선택했으며, 이는 인간이 자주 사용하는 기능을 기반으로 모델을 직접 사용하고 평가하는 방법입니다. 이 평가 방법은 시간이 많이 소요되지만, 모델의 실제 활용 가능성을 정확하게 평가할 수 있는 장점이 있습니다. 7.8B 모델의 영어 성능을 확인하기 위해 Chatbot Arena 평가와 유사한 네 가지 주요 벤치마크를 선정하고, 인간 사용도가 높은 항목들을 평가했습니다. 그 결과, EXAONE 7.8B 모델은 대부분의 벤치마크에서 1위를 차지하며, 가장 높은 평균 점수를 기록했습니다.

 

또한, 벤치마크에서 뛰어난 성능을 발휘했으며, 수학과 코딩에서 평균 점수 1위를 차지하며 다른 모델들보다 우수성을 입증했습니다. 그리고 추론에서도 강력한 성능을 보여주었습니다.

 

LG AI 연구원

 

■ 명확히 뛰어난 한국어 성능 : 실세계 사용 사례와 벤치마크 모두에서 평균 1위

 

EXAONE 7.8B 모델은 영어와 한국어를 모두 타겟으로 하는 이중 언어 모델입니다. 한국어 성능 평가를 위해, 실세계 사용 사례를 확인하기 위해 두 가지 벤치마크를 사용했으며, 일반적인 성능을 확인하기 위해 여러 벤치마크를 구성했습니다. 그 결과, 실세계 사용 사례와 일반 성능 모두에서 최상위 결과를 확인할 수 있었습니다.

 

LG AI 연구

 

■ 경제성 확보 : 3년간의 연구개발을 통해 초기 모델 비용의 6%로 절감

 

AI가 우리의 생활에 적용되기 위해서는 성능 향상뿐만 아니라 경제성 확보가 필수적입니다. 2021년 EXAONE 1.0 출시 이후, 우리는 AI 모델 압축 기술 연구개발에 집중하여 비용 효율성을 달성했습니다. 그 결과, 7.8B 모델은 EXAONE 2.0에 비해 추론 처리 시간이 56% 감소했으며, 비용은 72% 절감되었습니다. 특히, 초기 출시된 EXAONE 1.0의 비용의 6% 수준으로 비용을 크게 절감할 수 있었습니다.

 

LG AI 연구

 

■ 윤리적 투명성 : 뛰어난 성과와 함께 개선이 필요한 영역 공개

 

LG AI 연구소는 AI 모델의 연구개발 과정에서 항상 AI 윤리를 고려합니다. EXAONE 3.0 7.8B Instruction Tuned 언어 모델 또한 윤리와 보안을 평가하기 위해 Red Teaming 과정을 거쳤으며, 내부 및 외부 제3자 데이터셋을 사용하여 평가했습니다.

 

 

이번에 출시된 모델은 성차별적이지 않고 법적 문제를 일으키지 않는 답변을 제공하는 데 뛰어난 성능을 발휘했지만, 개선이 필요한 영역도 존재합니다. 우리는 AI 윤리의 발전을 위해 정보의 투명한 공개가 필수적이라고 믿기 때문에, 평가 결과를 있는 그대로 공개했습니다. 연구자들이 이번 공개를 바탕으로 AI 윤리에 대한 더 활발한 연구를 진행하기를 바라며, LG AI 연구소도 AI 윤리에 대한 연구를 지속할 것입니다.

 

■ 한국어 대형 언어 모델 신뢰성 벤치마크 데이터를 기반으로 한 무해성 평가 결과

 

모델의 성능 평가 결과를 포함한 자세한 정보는 아래 링크를 통해 확인할 수 있으며, 7.8B 모델을 직접 다운로드하여 사용할 수 있습니다. 이번 모델 공개가 다양한 연구개발을 돕고, 기술 경쟁력을 강화하는 데 기여하기를 바랍니다.

 

 

https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct

 

LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face

EXAONE-3.0-7.8B-Instruct 👋👋 We have revised our license for revitalizing the research ecosystem.👋👋 Introduction We introduce EXAONE-3.0-7.8B-Instruct, a pre-trained and instruction-tuned bilingual (English and Korean) generative model with 7.8

huggingface.co

 

https://arxiv.org/abs/2408.03541

 

EXAONE 3.0 7.8B Instruction Tuned Language Model

We introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open rese

arxiv.org

 

https://github.com/LG-AI-EXAONE

 

LG AI EXAONE

Official EXAONE models repository of LG AI Research - LG AI EXAONE

github.com

 

 

평가

 

EXAONE-3.0-7.8B-Instruct 모델을 유사한 크기의 인스트럭션 튜닝된 LLM(대형 언어 모델)과 비교했습니다. 실제 사용 사례의 성능을 검증하기 위해 LMSYS Chatbot Arena와 높은 상관관계를 가진 벤치마크를 측정했습니다. 일부 실험 결과는 아래에 나와 있으며, 전체 평가 결과는 기술 보고서에서 확인할 수 있습니다.

Hugging Face

 

제한 사항

 

EXAONE 언어 모델은 특정 제한 사항이 있으며, 가끔 부적절한 응답을 생성할 수 있습니다. 언어 모델은 토큰의 출력 확률에 따라 응답을 생성하며, 이는 학습 데이터에서 학습되는 동안 결정됩니다. 우리는 학습 데이터에서 개인적이거나, 유해하거나, 편향된 정보를 최대한 제외하려고 노력했지만, 일부 문제 있는 콘텐츠가 포함될 수 있으며, 이는 바람직하지 않은 응답으로 이어질 수 있습니다. EXAONE 언어 모델이 생성한 텍스트는 LG AI 연구소의 견해를 반영하지 않음을 유의해 주시기 바랍니다.

  • 부적절한 정보가 포함된 개인적이거나 유해한 응답이 생성될 수 있습니다.
  • 나이, 성별, 인종 등과 관련된 편향된 응답이 생성될 수 있습니다.
  • 생성된 응답은 학습 데이터의 통계에 크게 의존하므로 의미적으로나 문법적으로 잘못된 문장이 생성될 수 있습니다.
  • 모델이 최신 정보를 반영하지 않으므로, 응답이 사실과 다르거나 모순될 수 있습니다.

LG AI 연구소는 EXAONE 언어 모델에서 발생할 수 있는 잠재적인 위험을 줄이기 위해 노력하고 있습니다. 사용자는 EXAONE 언어 모델을 사용할 때 LG AI의 윤리적 원칙을 위반하는 부적절한 출력을 유도하는 불법적인 정보 입력 등 악의적인 활동에 참여해서는 안 됩니다.