GPT‑5 출시 2주 후 LLM 순위, 어떤 변화가 있었나?
엇갈린 평가 속에서 GPT-5의 현재 순위는?
2025년 8월 7일 공개된 GPT-5는 발표 직후부터 AI 업계의 모든 관심을 집중시켰습니다. 당시에는 “역대 최고 수준의 성능”이라는 찬사가 쏟아졌지만, 동시에 여러 한계가 지적되기도 했습니다. 약 2주가 지난 현재, 평가는 한층 구체화되어 복잡한 추론 능력, 멀티모달 처리 강화, 실시간 응답 속도 향상과 같은 장점이 높이 평가되는 동시에, 특정 분야에서의 불안정성, 초기 단계에서 드러난 일관성 부족 등은 여전히 비판의 대상이 되고 있습니다.
이번 글에서는 이러한 상반된 평가 속에서 GPT-5를 비롯한 주요 LLM들의 최신 순위 변화를 살펴보겠습니다.
- 실사용자 투표 기반 : Chatbot Arena
- 종합 벤치마크 점수 : Artificial Analysis
📊 비교 기준 소개
Chatbot Arena는 사용자들이 두 AI 모델을 무작위로 비교한 결과를 기반으로 실제 선호도 순위를 집계하는 플랫폼입니다.
Artificial Analysis는 다양한 벤치마크 테스트를 통해 AI 모델의 객관적인 종합 성능 점수를 평가하는 사이트입니다.
🔥 실사용자 선호도 랭킹 (Chatbot Arena, 2025-08-21)
1. 텍스트 기반 LLM 평가 TOP 5
아래 순위는 Chatbot Arena에서 실제 사용자들이 두 모델을 직접 비교·투표한 결과를 바탕으로 집계된 최신 데이터입니다. 텍스트 생성·이해력, 표현력, 맥락 처리 능력 등 전반적인 언어 품질을 평가 지표로 삼고 있습니다.
순위 | 모델명 | 점수 | 기관 |
---|---|---|---|
🥇 1 | Gemini 2.5 Pro | 1457 | |
🥈 1 | GPT-5 (high) | 1455 | OpenAI |
🥉 1 | Claude Opus 4.1 (Thinking-16k) | 1451 | Anthropic |
2 | o3 (2025-04-16) | 1445 | OpenAI |
3 | ChatGPT-4o (2025-03-26) | 1442 | OpenAI |
💬 요약
- 1위 그룹은 3개 모델이 공동 선두를 기록했습니다. Google의 Gemini 2.5 Pro(1457점), OpenAI의 GPT-5 (high, 1455점), 그리고 Anthropic의 Claude Opus 4.1 Thinking-16k(1451점)가 불과 몇 점 차이로 엇비슷한 성과를 보이며 치열한 경쟁을 펼치고 있습니다.
- 주목할 점은 GPT-5가 등장한 지 약 2주가 지나며, Gemini 2.5 Pro가 1위를 차지했습니다. 이는 시장에서의 초기 기대와 달리, 실사용자 체감 성능에서는 경쟁이 여전히 팽팽하다는 사실을 보여줍니다.
2. 웹 개발 분야 상위 모델 TOP 5 (Chatbot Arena, 2025-08-22)
Chatbot Arena의 WebDev 부문은 HTML, CSS, JavaScript 등 웹 개발과 관련된 코드 생성·디버깅·문제 해결 능력을 평가하는 사용자 투표 기반 순위입니다. 실제 개발자들이 모델의 코드를 비교하여 더 나은 쪽을 선택한 결과로 집계됩니다.
순위 | 모델명 | 점수 | 기관 |
---|---|---|---|
🥇 1 | GPT-5 (high) | 1481 | OpenAI |
🥈 1 | Claude Opus 4.1 Thinking-16k (20250805) | 1474 | Anthropic |
🥉 3 | Claude Opus 4.1 (20250805) | 1436 | Anthropic |
4 | Gemini 2.5 Pro | 1405 | |
DeepSeek-R1 (0528) | 1392 | DeepSeek |
💬 요약
- 웹 개발 분야에서는 GPT-5 (high) 가 1481점으로 1위를 유지하며 강력한 코딩 성능을 입증했습니다. 뒤이어 Claude Opus 4.1 Thinking-16k(1474점)와 Claude Opus 4.1(1436점) 모델이 상위권을 유지하며, Anthropic의 모델은 코드 생성·디버깅 부문에서 여전히 강세임을 보이고 있습니다.
- 주목할 점은 오픈소스 모델인 DeepSeek-R1(1392점) 이 5위권에 이름을 올렸다는 점입니다. 이는 웹 개발 분야에서도 오픈소스 모델이 충분히 경쟁력을 갖추고 있음을 보여주는 사례로 평가됩니다.
🚀 AI 종합 성능 기반 (Artificial Analysis)
3. LLM 성능 평가 지수 TOP 5
Artificial Analysis Intelligence Index는 SciCode, AIME, IFBench, AA-LCR 등 다양한 벤치마크를 통합하여 모델의 전방위적 인공지능 성능을 수치화한 지표입니다.
2025년 8월 말 최신 데이터는 다음과 같습니다.
순위 | 모델명 | 점수 | 기관 |
---|---|---|---|
🥇 1 | GPT-5 (high) | 68.95 | OpenAI |
🥈 2 | Grok-4 | 67.53 | xAI |
🥉 3 | o3 | 67.07 | OpenAI |
4 | Gemini 2.5 Pro | 64.63 | |
5 | Qwen3-235B (Reasoning) | 63.59 | Alibaba |
[주목할 만한 오픈소스 모델]
- 6위 - gpt-oss-120B (OpenAI) : 오픈소스로 공개된 GPT 계열 대규모 모델로, 다양한 연구와 분석 작업에 활용될 수 있는 범용성이 강점입니다.
- 7위 - DeepSeek V3.1 (DeepSeek) : 최근 공개된 차세대 오픈소스 모델로, 효율적인 아키텍처와 자원 활용을 바탕으로 빠르게 주목받고 있습니다. 특히 추론과 멀티태스크 처리 성능이 기존 DeepSeek-R1 대비 개선되었습니다.
💬 요약
- GPT-5 (high) 가 68.95점으로 인공지능 성능 지수에서 여전히 1위를 유지하고 있으며, Grok-4와 o3가 근소한 차이로 뒤를 따르고 있습니다. 또한 Gemini 2.5 Pro와 Qwen3-235B Reasoning 역시 강력한 경쟁력을 보여주고 있습니다.
- 최근 공개된 DeepSeek V3.1은 DeepSeek-R1을 잇는 차세대 추론형 오픈소스 모델로, 상위권에 진입하며 존재감을 드러냈습니다. 이는 오픈소스 모델들이 이제 상용 최상급 모델들과 비교해도 손색이 없음을 보여줍니다.
4. 가성비 좋은 모델 TOP 5 (저비용)
이 순위는 성능 지수(Artificial Analysis Intelligence Index)와 1M 토큰당 가격(USD)을 함께 고려하여 산출된 결과입니다.
즉, 높은 성능을 유지하면서도 가격이 저렴한 모델들을 가려낸 지표로, 연구·개발 환경이나 대규모 애플리케이션 운영 시 비용 효율성을 판단하는 중요한 기준이 됩니다.
구분 | 모델명 | 성능 지수 | 가격 (USD / 1M tokens) | 특징 |
---|---|---|---|---|
오픈소스 | gpt-oss-20B (OpenAI) | 49.01 | $0.09 | 초저가 오픈소스 모델, 기본 텍스트 생성 및 단순 추론에 최적 |
gpt-oss-120B (OpenAI) | 60.74 | $0.26 | 대규모 오픈소스 모델, 다양한 연구·분석 작업에 활용 가능 | |
DeepSeek V3.1 (Reasoning) | 59.74 | $0.96 | 최근 공개된 추론형 오픈소스 모델, 효율적 구조와 멀티태스크 강점 | |
DeepSeek R1 (0528) | 58.58 | $0.96 | 오픈소스 추론 특화 모델, 코드 생성 및 수학 문제 해결에 강점 | |
EXAONE-4.0-32B (LG AI Research) | 50.70 | $0.70 | 한국어 최적화 모델, 문서 요약·검색·QA 등 다목적 활용 가능 | |
상용모델 | GPT-5 (high) | 68.95 | $3.44 | 전방위 성능 최상위 모델, 복잡한 추론·멀티모달·창의적 작업에 강점 |
Grok-4 | 67.52 | $6.00 | xAI의 대표 모델, 심층 추론과 자연스러운 대화 능력에서 높은 평가 |
💬 요약
- OpenAI에서 공개한 gpt-oss-20B, gpt-oss-120B 모델은 가성비 대비 가장 뛰어난 비용 대비 성능을 제공하는 모델로 나타납니다.
- DeepSeek V3.1 (Reasoning) 은 최근 공개된 차세대 오픈소스 모델로, 합리적인 비용 구조와 개선된 추론 능력 덕분에 주목받고 있습니다.
- EXAONE-4.0-32B는 한국어 최적화 측면에서 독보적인 장점을 가지고 있어, 한국어 기반 서비스에 특히 적합합니다.
🔍 한눈에 보는 모델 특성 비교
LLM을 선택할 때는 단순한 순위만 보는 것이 아니라, 실사용자 평가·성능 지수·가격 경쟁력·특화 기능·라이선스 구분을 종합적으로 고려하는 것이 중요합니다. 아래 표는 주요 모델들을 오픈소스 모델과 상용 모델로 나누어, 각각의 강점을 한눈에 비교할 수 있도록 정리한 내용입니다.
구분 | 모델명 | 실사용자 순위 (Chatbot Arena) | 성능 순위 (Artificial Analysis) | 주요 강점 |
---|---|---|---|---|
상용모델 | GPT-5 (high, OpenAI) | 2위 | 1위 | 전방위 최고 성능, 복잡한 추론·멀티모달·실시간 대화·웹 개발 특화 |
Grok-4 (xAI) | - | 2위 | 심층 추론·분석, 대규모 지식 활용 | |
o3 (OpenAI) | 4위 | 3위 | 고난도 추론, 수학·분석 작업에서 강점 | |
Gemini 2.5 Pro (Google) | 1위 | 4위 | 전반적 균형 성능, 멀티모달 처리 지원 | |
Claude Opus 4.1 (Anthropic) | 3위 | - | 웹 개발·프론트엔드 코드 생성 및 디버깅 강점 | |
오픈소스 모델 | gpt-oss-20B (OpenAI) | - | - | 1M 토큰 $0.06 초저가, 기본 텍스트 생성·단순 추론 |
gpt-oss-120B (OpenAI) | - | 6위 | 오픈소스 최고 성능·가성비, 다양한 연구·개발 활용 | |
DeepSeek V3.1 (Reasoning) | - | 7위 | 차세대 추론형 오픈소스, 효율적 구조·멀티태스크 처리 | |
DeepSeek R1 (0528) | - | 9위 | 오픈소스 추론 특화, 코드 생성·수학 문제 해결 | |
EXAONE-4.0-32B (LG AI Research) | - | - | 한국어 최적화, 문서 요약·검색·QA 강점 |
✅ 어떤 모델을 선택해야 할까?
AI 모델을 선택할 때는 단순히 성능 지수만 보는 것이 아니라, 예산, 활용 목적, 운영 환경, 언어 지원, 멀티모달 기능 등을 종합적으로 고려하는 것이 중요합니다.
아래 표는 상황별로 적합한 모델을 정리한 것으로, 목적에 따라 선택 시 참고할 수 있습니다.
목표 / 상황 | 추천 모델 | 선택 이유 |
---|---|---|
전반적 최고 성능 | GPT-5 (high) | 인공지능 성능 지수 1위, 복잡한 추론·멀티모달·실시간 대화 모두 최고 수준 |
심층 추론 및 분석 특화 | Grok-4, o3 | 수학·논리·분석 중심 작업에 강점, GPT-5의 대안으로 적합 |
웹 개발 및 코딩 작업 | GPT-5 (high), Claude Opus 4.1 | WebDev Arena 상위권, 프론트엔드·디버깅 작업에서 우수 |
멀티모달 처리 | Gemini 2.5 Pro | 텍스트·이미지·영상까지 지원하는 균형 잡힌 멀티모달 AI |
초저비용 가성비 | gpt-oss-20B | 1M 토큰 $0.06, 단순 추론·텍스트 생성에 최적 |
연구·개발 및 확장성 | gpt-oss-120B, DeepSeek V3.1 | 오픈소스 기반, 커스터마이징 및 다양한 연구·개발 환경에 활용 가능 |
한국어 최적화 | EXAONE-4.0-32B | 한국어 문서 요약·검색·QA에 특화, 국내 환경에 적합 |
📝 마무리
2025년 8월 기준, GPT-5는 여전히 인공지능 성능 전반에서 최상위 자리를 지키고 있는 모델입니다. 그러나 순위표를 자세히 들여다보면, Grok-4, Gemini 2.5 Pro, Claude Opus 4.1과 같은 경쟁 모델들이 각자의 강점을 발휘하며 특정 분야에서는 GPT-5에 뒤지지 않는 성과를 보여주고 있습니다.
또한, gpt-oss-20B·120B, DeepSeek V3.1, EXAONE-4.0-32B와 같은 오픈소스 모델들도 빠른 속도로 상용 모델을 추격하며, 가성비·연구 활용·특화 영역에서 두각을 나타내고 있습니다. 특히 최근 공개된 DeepSeek V3.1은 차세대 오픈소스 추론형 모델로 주목받으며, 향후 오픈소스 진영의 대표 주자로 성장할 가능성이 큽니다.
결국 중요한 것은 “어떤 모델이 더 뛰어난가?” 가 아니라, “나의 목적과 환경에 가장 적합한 모델은 무엇인가?” 라는 질문입니다.
- 전반적인 최고 성능과 실시간 멀티모달 기능이 필요하다면 👉 GPT-5
- 심층 추론이나 분석 중심 작업에는 👉 Grok-4 / o3
- 웹 개발 및 코드 작업에는 Claude 👉 Opus 4.1
- 초저비용 실험이나 연구 개발에는 👉 gpt-oss / DeepSeek 시리즈
- 한국어 환경에는 👉 EXAONE-4.0-32B
이처럼 목적에 따라 최적의 모델을 선택하는 것이 AI 활용의 핵심입니다. 이 글이 현 시점에서 가장 알맞은 모델을 선택하는 데 도움이 되기를 바랍니다.
감사합니다. 😊
[참고 링크]
👉 Chatbot Arena : https://lmarena.ai/leaderboard
👉 Artificial Analysis : https://artificialanalysis.ai/