K‑LLM 비교 | 한국형 AI 파운데이션 모델 성능·특장점 한눈에 보기

2025-07-16
AI 트렌드
#AI 모델 비교#국내AI#한국형 AI모델#한국어 AI 비교#파운데이션 모델#하이퍼클로바X#EXAONE#솔라 프로#Karlo#에이닷#Mi:dm#K-LLM

한국형 AI 모델 개발, ‘독자 파운데이션 프로젝트’로 본격 시동

2025년 6월 20일, 과학기술정보통신부가 ‘독자 AI 파운데이션 모델 프로젝트’ 를 공식 발표하며, 국내 인공지능(AI) 기술 개발이 본격적인 궤도에 올랐습니다. 이 프로젝트는 국산 AI 기술로 자립 기반을 마련하고, 글로벌 시장에서의 경쟁력을 강화하기 위한 국가 차원의 전략으로 추진되고 있습니다.
정부의 이러한 정책적 지원에 힘입어, 국내 주요 기업들은 한국어의 특성과 국내 환경에 최적화된 독자 AI 모델을 속속 공개하며 치열한 기술 경쟁을 벌이고 있습니다. 한국형 AI 생태계는 지금 빠르게 성장하고 있으며, AI 주권 확보를 위한 국내의 움직임이 한층 더 가속화되고 있습니다.


1. 지금까지 공개된 한국형 AI 모델

현재 다수의 국내 기업들이 자체 AI 파운데이션 모델 개발에 성공하며 각자의 강점을 내세우고 있습니다. 주요 기업과 그들의 AI 모델은 다음과 같습니다.

기업공개 모델공개일모델사이즈제공기능비고
네이버하이퍼클로바 X 싱크
(HyperClova X Think)
2025.06.30-추론 모델,
비전 기능,
MCP 지원
웹 플랫폼 지원
LG AI
연구원
엑사원 4.0 (EXAONE 4.0)2025.07.15320억 (32B)고성능
추론 모델
허깅페이스
KT믿음(Mi:dm)2025.07.03115억 (11.5B)추론 모델,
오픈소스
허깅페이스
SK텔레콤에이닷 3.1 (A.X 3.1)2025.07.1170억 (7B)경량화 모델,
오픈소스
허깅페이스
업스테이지솔라 프로 2.0 (Solar Pro 2.0)2025.05.21310억 (31B)추론 모델웹 플랫폼 지원
코난테크놀로지ENT-112025.03.26320억 (32B)추론 모델웹 플랫폼 지원

2. 국내 AI 모델 벤치마크 비교

아래 벤치마크 점수는 각 기업이 공개한 공식 자료를 기반으로 정리했습니다. ENT‑11은 아직 확인된 성능 지표가 발표되지 못해 빈칸으로 표기했습니다. 국내 주요 AI 모델들은 다양한 벤치마크를 통해 추론 능력, 사용자 지시 이행, 대화 품질 등에서 저마다의 강점을 드러냅니다.

평가 기준벤치 마크HyperClova X ThinkEXAONE 4.0 32B (Reasoning)Midm-2.0-Base-InstructA.X-3.1-LightSolar Pro 2.0 (Reasoning)ENT-11
일반 지식 추론MMLU-0shot-CoT--73.70%66.95%86.92%-
일반 지식 추론 (정제판)MMLU-REDUX-92.30%----
고급 과학 지식GPQA-DIAMOND-75.40%33.50%---
사용자 지시 이행IFEval-83.70%84.00%79.86%85.18%-
전반적 대화 품질MT-Bench----87.06%-
수학적 추론 (기초)GSM8K95.50%-91.60%---
수학적 추론 (고급)MATH50095.20%--70.14%--
수학 문제 해결 (심화)AIME 2025-85.30%----
코드 생성 정확성Coding(HumanEval)95.70%--73.78%--
한국어 지식 추론KMMLU-0shot-CoT69.70%-57.30%61.70%84.08%-
한국어 지식 추론 (정제판)KMMLU-REDUX-72.70%----
한국어 종합 평가HAERAE87.80%-81.50%-85.21%-
한국어 지시 이행Ko-IFEval--82.00%70.04%84.65%-
한국어 대화 품질Ko-MT-Bench--89.70%78.56%84.12%-
일본어 지식 추론Ja-MMLU-0shot-CoT----79.22%-
일본어 지시 이행Ja-IFEval----79.95%-

MMLU-0shot-CoT : 객관식 문제를 기반으로, 일반 지식에 대한 정답 도출 능력을 평가
MMLU-REDUX : 기존 MMLU의 확장·정제 버전으로, 데이터 오류 및 중복 문제를 개선한 벤치마크
GPQA-DIAMOND : 고난도 과학적 추론 능력, 물리학을 중심으로 한 고난도 과학 지식 및 추론 능력을 평가
IFEval : 사용자 지시에 대한 이해 및 정확한 이행 능력을 평가
MT-Bench : 대화형 응답의 이해도, 표현력, 논리성, 유용성 등을 종합적으로 평가
GSM8K : 초등 ~ 중등 수준의 수학 문제를 통해 단계적 추론(Chain-of-Thought) 능력을 평가
MATH500 : 고등학교 ~ 대학 수준의 고난도 수학 문제를 통해 논리적 전개와 수학적 사고력을 측정
AIME 2025 : 실제 고등학교 수학 경시대회의 극난도 문제를 사용하여 고급 수학적 추론 능력을 평가
Coding(HumanEval) : 자연어 지시를 바탕으로 정밀한 함수형 코드를 생성하는 능력을 평가
KMMLU-0shot-CoT : 한국어 기반 MMLU 평가
KMMLU-REDUX : 한국어 기반 MMLU-REDUX 평가
HAERAE : 한국어 특화 언어모델의 종합적인 언어 이해 및 추론 능력을 평가하기 위한 벤치마크로, Ko-LLM 리더보드의 기준으로 사용됨
Ko-IFEval : 한국어 기반 IFEval 평가
Ko-MT-Bench : 한국어 기반 MT-Bench 평가
Ja-MMLU-0shot-CoT : 일본어 기반 MMLU 평가
Ja-IFEval : 일본어 기반 IFEval 평가


국내 AI 모델 종합 요약

  1. 가장 고성능의 추론 모델 : EXAONE 4.0 32B
    • MMLU-REDUX, GSM8K, AIME 등에서 고난이도 평가 문항에서 높은 점수를 기록한 고정밀 추론 모델입니다.
  2. 전반적인 멀티태스크 성능이 균형 잡힌 모델 : Solar Pro 2.0
    • MT-Bench, Ko-MMLU, Ko-IFEval 등 다양한 벤치마크에서 고르게 상위권 성능을 보이는 모델입니다.
  3. 코딩 성능 및 한국어 특화 성능이 뛰어난 모델 : HyperClova X Think
    • HumanEval(코딩), MATH500, GSM8K 등에서 95% 이상의 성능을 기록하며, 정밀한 계산과 한국어 특화 영역에서 강점을 보입니다.
  4. 비전 기능 지원 모델 : HyperClova X Think
    • 텍스트 기반 추론 외에 멀티모달(비전) 입력을 처리할 수 있는 기능이 포함된 모델입니다.
  5. 경량화 모델 중 효율적인 성능을 보이는 모델 : A.X 3.1 Light
    • 적은 파라미터 수에도 불구하고 Ko-MMLU, IFEval 등에서 준수한 성능을 나타내는 경량 AI 모델입니다.
  6. 한글 지시 이행 및 대화 품질 우수 모델 : Mi:dm 2.0 Base-Instruct
    • IFEval, Ko-IFEval, Ko-MT-Bench 등에서 상위권 점수를 기록한 오픈소스 기반의 한국어 특화 모델입니다.

📝 마무리

국내 AI 생태계는 정부의 ‘독자 AI 파운데이션 모델 프로젝트’를 기점으로 본격적인 성장 궤도에 진입했으며, 기업 간의 기술 경쟁 역시 더욱 활발해지고 있습니다. 이번에 공개된 주요 한국형 AI 모델들은 각기 다른 기술적 특장점을 바탕으로 다양한 벤치마크에서 다양한 성능을 입증하며, AI 주권 확보를 위한 기반을 한층 더 견고히 다지고 있습니다. 앞으로도 한국어 환경에 최적화된 고성능 모델들이 지속적으로 등장하고, 국산 AI 기술이 글로벌 시장에서도 독자적인 입지를 넓혀나가기를 기대합니다.

감사합니다.


[참고 링크]

👉 독자 AI 파운데이션 모델 프로젝트 공고 : https://www.msit.go.kr/bbs/view.do?sCode=user&mId=311&mPid=121&pageIndex=4&bbsSeqNo=100&nttSeqNo=3179570&searchOpt=ALL&searchTxt=
👉 HyperClova X Think 테크리포트 : https://arxiv.org/pdf/2506.22403
👉 EXAONE-4.0-32B-instruct 테크리포트 : https://arxiv.org/pdf/2507.11407
👉 Mi:dm-2.0 Base-inst 허깅페이스 : https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct#korean
👉 A.X 3.1 Light 허깅페이스 : https://huggingface.co/skt/A.X-3.1-Light#benchmark-results
👉 Solar Pro 2.0 공식페이지 : https://www.upstage.ai/blog/ko/solar-pro-2-preview-introduction
👉 ENT-11 공식페이지 : https://www.konantech.com/pr/press?number=3465&pn=3&stype2=&sfi=subj&sword=

작성자 : AIMIZING.