LMSys Elo 점수란?
LMSys Elo 점수는 대규모 언어 모델(LLM)의 성능을 비교하기 위해 LMSys(Large Model Systems Organization)에서 도입한 평가 방식입니다.
LMSys Elo 점수 개요
- LMSys는 사용자 피드백을 기반으로 LLM의 상대적인 강점을 평가하는 Arena 플랫폼을 운영하고 있습니다.
- Elo 점수는 체스 등 순위 시스템에서 사용되는 방식과 유사하게, 모델 간 1:1 비교 평가(pairwise comparison) 를 통해 계산됩니다.
- 사용자는 두 개의 모델이 생성한 응답을 비교한 후, 더 나은 응답을 선택합니다.
- 많은 사용자의 선택을 통해 모델의 점수가 결정되며, 높은 점수를 받은 모델이 더 강력한 모델로 간주됩니다.
LMSys Elo 점수 계산 방식
- 두 개의 모델이 동일한 질문에 대한 응답을 생성합니다.
- 사용자들이 직접 두 응답을 비교하고, 더 나은 응답을 선택합니다.
- 승패 기록을 기반으로 Elo 점수가 업데이트됩니다.
- 지속적인 비교를 통해 각 모델의 순위가 변동합니다.
LMSys Elo 점수의 의미
- 점수가 높을수록 상대적으로 더 나은 응답을 제공하는 모델임을 의미합니다.
- GPT-4, Claude, Gemini, Mistral 등 다양한 최신 모델이 평가에 참여합니다.
- 연구자 및 개발자는 LMSys Elo 점수를 참고하여 어떤 모델이 특정 작업에서 우수한지 판단할 수 있습니다.
95% CI가 무엇인가?
95% CI (Confidence Interval, 신뢰구간) 는 통계에서 특정한 모집단의 참값(평균 또는 비율 등)이 포함될 것으로 예상되는 범위를 의미합니다.
LMSys Elo 점수에서 95% CI의 의미
- LMSys Elo 점수는 사용자 비교 평가 데이터를 기반으로 한 통계적 추정치입니다.
- 따라서 점수가 변동할 수 있으며, 특정한 범위 안에 실제 점수가 있을 확률을 제시해야 합니다.
- 95% 신뢰구간(95% CI) 는 "우리가 측정한 Elo 점수의 실제 값이 95% 확률로 이 범위 안에 존재한다"는 의미입니다.
예시
만약 GPT-4의 LMSys Elo 점수가 1250 ± 30 (95% CI: [1220, 1280]) 라고 한다면:
- GPT-4의 실제 Elo 점수는 1220~1280 사이에 있을 확률이 95%입니다.
- 즉, 모델의 성능이 단일한 수치가 아니라, 약간의 변동성을 고려한 범위로 이해해야 합니다.
왜 95% 신뢰구간을 사용하는가?
- LMSys Elo 점수는 많은 사용자 평가 데이터에서 추정되므로 오차가 포함됩니다.
- 데이터가 충분하지 않거나 평가 간 차이가 크면 신뢰구간이 넓어질 수 있습니다.
- 95% CI를 제공하면 점수의 정확성과 신뢰도를 더 잘 해석할 수 있습니다.
즉, LMSys Elo 점수의 95% CI는 모델 평가 결과의 신뢰성을 보여주는 지표입니다.
그러면 type란 무엇인가?
LMSys Elo 순위에서 "type" 은 비교되는 모델의 유형을 나타내는 속성입니다. 보통 다음과 같은 값이 있습니다.
LMSys Elo "type"의 주요 분류
- Proprietary (사유 모델)
- 기업에서 개발하여 상업적으로 운영하는 모델
- 예시: gpt-4-turbo, claude-3-opus, gemini-1.5-pro
- Open (오픈소스 모델)
- 공개되어 누구나 사용할 수 있는 모델
- 예시: mistral-7b, llama-3-70b, mixtral-8x7b
- Fine-tuned (튜닝된 모델)
- 기본 모델을 특정 목적에 맞게 추가 학습한 버전
- 예시: zephyr-7b-beta (fine-tuned)
- Anonymous (익명 모델)
- 테스트 중이거나 아직 정식으로 공개되지 않은 모델
- gpt-4-0125-preview (anonymous) 같은 경우
즉, "type"은 해당 모델이 사유(기업 소유)인지, 오픈소스인지, 혹은 튜닝된 버전인지 등을 나타내는 정보입니다.
그러면 #params/#activated 는 무엇?
LMSys Elo 순위에서 #params / #activated 항목은 모델의 규모를 나타내는 지표입니다.
1. #params (파라미터 수, Parameters)
- 모델이 학습에 사용한 총 가중치(weight) 개수를 의미합니다.
- 일반적으로 더 많은 파라미터를 가진 모델은 더 복잡한 패턴을 학습할 수 있습니다.
- 단위: B (Billion, 10억 개)
예시:
- Mistral-7B → 7B (70억 개) 파라미터
- LLaMA 3-70B → 70B (700억 개) 파라미터
2. #activated (활성화된 파라미터 수, Activated Parameters)
- 일부 모델(특히 Mixture of Experts, MoE 구조)은 한 번의 실행에서 일부 파라미터만 활성화됩니다.
- 즉, 모델이 요청을 처리할 때 전체 파라미터를 사용하지 않고, 일부만 선택적으로 활용하는 방식입니다.
- 이는 메모리 절약 및 속도 최적화에 유리합니다.
예시:
- Mixtral-8x7B:
- #params = 56B (총 8개 전문가 × 각 7B)
- #activated = 14B (한 번에 2개 전문가만 활성화됨)
즉, #params는 모델의 전체 크기, #activated는 실제 요청 처리 시 사용되는 파라미터 수를 의미합니다.
LMSys Arena의 최신 순위 정보
Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots
Rank* (UB) | Rank (StyleCtrl) | Model | Arena Score | 95% CI | Votes | Organization | License | Knowledge Cutoff |
1 | 1 | GPT-4.5-Preview | 1404 | -0.7777777778 | 6024 | OpenAI | Proprietary | Unknown |
1 | 2 | chocolate (Early Grok-3) | 1402 | -1 | 14006 | xAI | Proprietary | Unknown |
4 | 7 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | -1 | 19837 | Proprietary | Unknown | |
4 | 3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | -1 | 17695 | Proprietary | Unknown | |
4 | 2 | ChatGPT-4o-latest (2025-01-29) | 1375 | -0.8 | 19587 | OpenAI | Proprietary | Unknown |
7 | 5 | DeepSeek-R1 | 1361 | -0.8333333333 | 10474 | DeepSeek | MIT | Unknown |
7 | 11 | Gemini-2.0-Flash-001 | 1355 | -0.8 | 15416 | Proprietary | Unknown | |
7 | 3 | o1-2024-12-17 | 1353 | -1 | 22010 | OpenAI | Proprietary | Unknown |
10 | 11 | Gemma-3-27B-it | 1339 | -0.8181818182 | 3870 | Gemma | Unknown | |
10 | 11 | Qwen2.5-Max | 1338 | -1 | 14258 | Alibaba | Proprietary | Unknown |
10 | 8 | o1-preview | 1335 | -1 | 33195 | OpenAI | Proprietary | 2023/10 |
10 | 11 | o3-mini-high | 1328 | -1.2 | 11409 | OpenAI | Proprietary | Unknown |
14 | 13 | DeepSeek-V3 | 1319 | -1 | 23079 | DeepSeek | DeepSeek | Unknown |
14 | 19 | GLM-4-Plus-0111 | 1310 | -0.875 | 6037 | Zhipu | Proprietary | Unknown |
14 | 16 | Qwen-Plus-0125 | 1310 | -0.875 | 6058 | Alibaba | Proprietary | Unknown |
15 | 16 | Gemini-2.0-Flash-Lite | 1308 | -1 | 15126 | Proprietary | Unknown | |
15 | 15 | o3-mini | 1305 | -0.6 | 17849 | OpenAI | Proprietary | Unknown |
15 | 7 | Claude 3.7 Sonnet | 1304 | -1 | 6952 | Anthropic | Proprietary | Unknown |
15 | 21 | Step-2-16K-Exp | 1304 | -1.428571429 | 5138 | StepFun | Proprietary | Unknown |
15 | 21 | o1-mini | 1304 | -1 | 54978 | OpenAI | Proprietary | 2023/10 |
15 | 16 | Gemini-1.5-Pro-002 | 1302 | -1 | 58887 | Proprietary | Unknown | |
23 | 23 | Grok-2-08-13 | 1288 | -0.6666666667 | 67102 | xAI | Proprietary | 2024/3 |
23 | 25 | Yi-Lightning | 1287 | -0.75 | 28972 | 01 AI | Proprietary | Unknown |
23 | 17 | GPT-4o-2024-05-13 | 1285 | -1 | 117785 | OpenAI | Proprietary | 2023/10 |
23 | 11 | Claude 3.5 Sonnet (20241022) | 1283 | -1 | 61187 | Anthropic | Proprietary | 2024/4 |
23 | 34 | Qwen2.5-plus-1127 | 1282 | -1 | 10742 | Alibaba | Proprietary | Unknown |
23 | 28 | Deepseek-v2.5-1210 | 1279 | -0.8571428571 | 7258 | DeepSeek | DeepSeek | Unknown |
27 | 35 | Athene-v2-Chat-72B | 1275 | -1 | 26113 | NexusFlow | NexusFlow | Unknown |
27 | 33 | GLM-4-Plus | 1274 | -1.333333333 | 27780 | Zhipu AI | Proprietary | Unknown |
27 | 24 | Hunyuan-Large-2025-02-10 | 1272 | -0.8 | 3863 | Tencent | Proprietary | Unknown |
28 | 34 | GPT-4o-mini-2024-07-18 | 1272 | -1 | 67965 | OpenAI | Proprietary | 2023/10 |
28 | 35 | Gemini-1.5-Flash-002 | 1271 | -1 | 37016 | Proprietary | Unknown | |
28 | 48 | Llama-3.1-Nemotron-70B-Instruct | 1268 | -1.333333333 | 7579 | Nvidia | Llama 3.1 | 2023/12 |
29 | 19 | Claude 3.5 Sonnet (20240620) | 1268 | -1 | 86188 | Anthropic | Proprietary | 2024/4 |
29 | 21 | Meta-Llama-3.1-405B-Instruct-bf16 | 1268 | -0.75 | 36639 | Meta | Llama 3.1 Community | 2023/12 |
31 | 22 | Meta-Llama-3.1-405B-Instruct-fp8 | 1267 | -1 | 63071 | Meta | Llama 3.1 Community | 2023/12 |
31 | 22 | Gemini Advanced App (2024-05-14) | 1266 | -1 | 52160 | Proprietary | Online | |
32 | 43 | Grok-2-Mini-08-13 | 1266 | -1 | 55464 | xAI | Proprietary | 2024/3 |
32 | 23 | GPT-4o-2024-08-06 | 1265 | -0.75 | 48000 | OpenAI | Proprietary | 2023/10 |
32 | 34 | Qwen-Max-0919 | 1263 | -0.6666666667 | 17437 | Alibaba | Qwen | Unknown |
33 | 35 | Hunyuan-Standard-2025-02-10 | 1259 | -0.6363636364 | 4027 | Tencent | Proprietary | Unknown |
38 | 30 | Gemini-1.5-Pro-001 | 1260 | -1 | 82464 | Proprietary | 2023/11 | |
41 | 40 | Deepseek-v2.5 | 1258 | -0.75 | 26356 | DeepSeek | DeepSeek | Unknown |
41 | 48 | Qwen2.5-72B-Instruct | 1257 | -0.75 | 41552 | Alibaba | Qwen | 2024/9 |
41 | 30 | GPT-4-Turbo-2024-04-09 | 1256 | -0.6666666667 | 102184 | OpenAI | Proprietary | 2023/12 |
41 | 33 | Llama-3.3-70B-Instruct | 1256 | -1 | 30990 | Meta | Llama-3.3 | Unknown |
43 | 35 | Mistral-Large-2407 | 1251 | -1 | 48216 | Mistral | Mistral Research | 2024/7 |
43 | 44 | Athene-70B | 1250 | -1.25 | 20599 | NexusFlow | CC-BY-NC-4.0 | 2024/7 |
47 | 34 | GPT-4-1106-preview | 1250 | -0.6666666667 | 103777 | OpenAI | Proprietary | 2023/4 |
47 | 53 | Meta-Llama-3.1-70B-Instruct | 1248 | -0.6666666667 | 58675 | Meta | Llama 3.1 Community | 2023/12 |
47 | 48 | Mistral-Large-2411 | 1247 | -1 | 25447 | Mistral | MRL | Unknown |
47 | 32 | Claude 3 Opus | 1247 | -0.6666666667 | 202711 | Anthropic | Proprietary | 2023/8 |
47 | 54 | Amazon Nova Pro 1.0 | 1245 | -1 | 20675 | Amazon | Proprietary | Unknown |
47 | 50 | Llama-3.1-Tulu-3-70B | 1243 | -0.7272727273 | 3016 | Ai2 | Llama 3.1 | Unknown |
50 | 35 | GPT-4-0125-preview | 1245 | -0.6666666667 | 97104 | OpenAI | Proprietary | 2023/12 |
55 | 53 | Reka-Core-20240904 | 1235 | -1 | 7942 | Reka AI | Proprietary | Unknown |
56 | 35 | Claude 3.5 Haiku (20241022) | 1236 | -1 | 26119 | Anthropic | Propretary | Unknown |
58 | 56 | Gemini-1.5-Flash-001 | 1227 | -1 | 65681 | Proprietary | 2023/11 | |
59 | 54 | Jamba-1.5-Large | 1221 | -0.8571428571 | 9128 | AI21 Labs | Jamba Open | 2024/3 |
60 | 55 | Gemma-2-27B-it | 1220 | -1 | 79649 | Gemma license | 2024/6 | |
60 | 63 | Qwen2.5-Coder-32B-Instruct | 1217 | -1 | 5733 | Alibaba | Apache 2.0 | Unknown |
60 | 56 | Gemma-2-9B-it-SimPO | 1216 | -1 | 10554 | Princeton | MIT | 2024/7 |
60 | 70 | Amazon Nova Lite 1.0 | 1216 | -1 | 18677 | Amazon | Proprietary | Unknown |
60 | 58 | Command R+ (08-2024) | 1215 | -0.5714285714 | 10544 | Cohere | CC-BY-NC-4.0 | 2024/8 |
60 | 65 | Mistral-Small-24B-Instruct-2501 | 1214 | -0.8333333333 | 10979 | Mistral | Apache 2.0 | Unknown |
60 | 54 | Llama-3.1-Nemotron-51B-Instruct | 1211 | -1 | 3887 | Nvidia | Llama 3.1 | 2023/12 |
61 | 71 | Gemini-1.5-Flash-8B-001 | 1212 | -1 | 37701 | Proprietary | Unknown | |
62 | 69 | Aya-Expanse-32B | 1209 | -1 | 28777 | Cohere | CC-BY-NC-4.0 | Unknown |
62 | 61 | Nemotron-4-340B-Instruct | 1209 | -1.25 | 20613 | Nvidia | NVIDIA Open Model | 2023/6 |
62 | 64 | GLM-4-0520 | 1207 | -0.8333333333 | 10216 | Zhipu AI | Proprietary | Unknown |
65 | 62 | Reka-Flash-20240904 | 1205 | -0.7142857143 | 8138 | Reka AI | Proprietary | Unknown |
66 | 62 | Llama-3-70B-Instruct | 1206 | -0.6666666667 | 163686 | Meta | Llama 3 Community | 2023/12 |
68 | 76 | Phi-4 | 1202 | -1 | 18442 | Microsoft | MIT | Unknown |
71 | 61 | Claude 3 Sonnet | 1201 | -1 | 113094 | Anthropic | Proprietary | 2023/8 |
72 | 84 | Amazon Nova Micro 1.0 | 1197 | -0.8 | 18701 | Amazon | Proprietary | Unknown |
73 | 84 | Hunyuan-Standard-256K | 1189 | -1 | 2902 | Tencent | Proprietary | Unknown |
76 | 70 | Gemma-2-9B-it | 1192 | -1 | 57307 | Gemma license | 2024/6 | |
76 | 70 | Command R+ (04-2024) | 1190 | -1 | 80880 | Cohere | CC-BY-NC-4.0 | 2024/3 |
76 | 86 | Llama-3.1-Tulu-3-8B | 1185 | -1.1 | 3074 | Ai2 | Llama 3.1 | Unknown |
77 | 70 | Qwen2-72B-Instruct | 1187 | -1 | 38874 | Alibaba | Qianwen LICENSE | 2024/6 |
77 | 58 | GPT-4-0314 | 1186 | -1 | 55966 | OpenAI | Proprietary | 2021/9 |
77 | 84 | Ministral-8B-2410 | 1182 | -0.8181818182 | 5115 | Mistral | MRL | Unknown |
79 | 85 | Aya-Expanse-8B | 1180 | -1.2 | 10405 | Cohere | CC-BY-NC-4.0 | Unknown |
79 | 72 | Command R (08-2024) | 1180 | -1.2 | 10842 | Cohere | CC-BY-NC-4.0 | 2024/8 |
80 | 70 | DeepSeek-Coder-V2-Instruct | 1178 | -1 | 15757 | DeepSeek AI | DeepSeek License | 2024/6 |
81 | 75 | Claude 3 Haiku | 1179 | -1 | 122349 | Anthropic | Proprietary | 2023/8 |
81 | 84 | Jamba-1.5-Mini | 1176 | -0.7142857143 | 9273 | AI21 Labs | Jamba Open | 2024/3 |
81 | 100 | Meta-Llama-3.1-8B-Instruct | 1176 | -1.333333333 | 52616 | Meta | Llama 3.1 Community | 2023/12 |
90 | 69 | GPT-4-0613 | 1163 | -1 | 91644 | OpenAI | Proprietary | 2021/9 |
90 | 84 | Qwen1.5-110B-Chat | 1161 | -1 | 27441 | Alibaba | Qianwen LICENSE | 2024/4 |
90 | 99 | Yi-1.5-34B-Chat | 1157 | -1 | 25139 | 01 AI | Apache-2.0 | 2024/5 |
90 | 85 | Reka-Flash-21B-online | 1156 | -1 | 16024 | Reka AI | Proprietary | Online |
90 | 118 | QwQ-32B-Preview | 1153 | -0.7 | 3413 | Alibaba | Apache 2.0 | Unknown |
91 | 84 | Mistral-Large-2402 | 1157 | -1 | 64935 | Mistral | Proprietary | Unknown |
92 | 92 | Llama-3-8B-Instruct | 1152 | -0.6666666667 | 109121 | Meta | Llama 3 Community | 2023/3 |
92 | 107 | InternLM2.5-20B-chat | 1149 | -1 | 10599 | InternLM | Other | 2024/8 |
94 | 89 | Command R (04-2024) | 1149 | -2 | 56393 | Cohere | CC-BY-NC-4.0 | 2024/3 |
94 | 92 | Mistral Medium | 1148 | -0.75 | 35564 | Mistral | Proprietary | Unknown |
94 | 92 | Reka-Flash-21B | 1148 | -1 | 25819 | Reka AI | Proprietary | 2023/11 |
94 | 95 | Granite-3.1-8B-Instruct | 1142 | -0.75 | 3302 | IBM | Apache 2.0 | Unknown |
95 | 88 | Mixtral-8x22b-Instruct-v0.1 | 1147 | -1 | 53787 | Mistral | Apache 2.0 | 2024/4 |
95 | 89 | Qwen1.5-72B-Chat | 1147 | -1 | 40668 | Alibaba | Qianwen LICENSE | 2024/2 |
96 | 107 | Gemma-2-2b-it | 1144 | -0.75 | 49031 | Gemma license | 2024/7 | |
104 | 86 | Gemini-1.0-Pro-001 | 1131 | -1.25 | 18798 | Proprietary | 2023/4 | |
104 | 99 | Zephyr-ORPO-141b-A35b-v0.1 | 1127 | -0.875 | 4865 | HuggingFace | Apache 2.0 | 2024/4 |
105 | 101 | Qwen1.5-32B-Chat | 1125 | -0.75 | 22769 | Alibaba | Qianwen LICENSE | 2024/2 |
105 | 110 | Granite-3.1-2B-Instruct | 1119 | -1 | 3381 | IBM | Apache 2.0 | Unknown |
106 | 107 | Phi-3-Medium-4k-Instruct | 1123 | -1 | 26105 | Microsoft | MIT | 2023/10 |
106 | 120 | Starling-LM-7B-beta | 1119 | -1.25 | 16676 | Nexusflow | Apache-2.0 | 2024/3 |
108 | 97 | Gemini Pro | 1110 | -1 | 6558 | Proprietary | 2023/4 | |
109 | 112 | Yi-34B-Chat | 1111 | -1 | 15922 | 01 AI | Yi License | 2023/6 |
110 | 107 | Mixtral-8x7B-Instruct-v0.1 | 1114 | #DIV/0! | 76132 | Mistral | Apache 2.0 | 2023/12 |
111 | 110 | Qwen1.5-14B-Chat | 1109 | -0.8 | 18679 | Alibaba | Qianwen LICENSE | 2024/2 |
111 | 110 | WizardLM-70B-v1.0 | 1106 | -0.8571428571 | 8382 | Microsoft | Llama 2 Community | 2023/8 |
111 | 115 | Meta-Llama-3.2-3B-Instruct | 1103 | -1 | 8395 | Meta | Llama 3.2 | 2023/12 |
112 | 97 | GPT-3.5-Turbo-0125 | 1106 | -1 | 68893 | OpenAI | Proprietary | 2021/9 |
112 | 107 | DBRX-Instruct-Preview | 1103 | -1 | 33740 | Databricks | DBRX LICENSE | 2023/12 |
112 | 114 | Phi-3-Small-8k-Instruct | 1102 | -1 | 18475 | Microsoft | MIT | 2023/10 |
113 | 117 | Tulu-2-DPO-70B | 1099 | -1.166666667 | 6661 | AllenAI/UW | AI2 ImpACT Low-risk | 2023/11 |
117 | 107 | Granite-3.0-8B-Instruct | 1093 | -0.8571428571 | 6998 | IBM | Apache 2.0 | Unknown |
118 | 113 | OpenChat-3.5-0106 | 1091 | -1.2 | 12989 | OpenChat | Apache-2.0 | 2024/1 |
119 | 127 | Llama-2-70B-chat | 1093 | -1 | 39615 | Meta | Llama 2 Community | 2023/7 |
120 | 118 | Vicuna-33B | 1091 | -1 | 22943 | LMSYS | Non-commercial | 2023/8 |
120 | 112 | Snowflake Arctic Instruct | 1090 | -0.75 | 34192 | Snowflake | Apache 2.0 | 2024/4 |
120 | 122 | Starling-LM-7B-alpha | 1088 | -1 | 10418 | UC Berkeley | CC-BY-NC-4.0 | 2023/11 |
120 | 131 | Nous-Hermes-2-Mixtral-8x7B-DPO | 1084 | -1.125 | 3835 | NousResearch | Apache-2.0 | 2024/1 |
121 | 127 | NV-Llama2-70B-SteerLM-Chat | 1081 | -1.111111111 | 3638 | Nvidia | Llama 2 Community | 2023/11 |
122 | 113 | Gemma-1.1-7B-it | 1084 | -1 | 25070 | Gemma license | 2024/2 | |
126 | 117 | DeepSeek-LLM-67B-Chat | 1077 | -1.142857143 | 4989 | DeepSeek AI | DeepSeek License | 2023/11 |
127 | 115 | OpenChat-3.5 | 1077 | -0.8571428571 | 8110 | OpenChat | Apache-2.0 | 2023/11 |
127 | 118 | OpenHermes-2.5-Mistral-7B | 1074 | -1.166666667 | 5088 | NousResearch | Apache-2.0 | 2023/11 |
127 | 125 | Granite-3.0-2B-Instruct | 1074 | -1 | 7191 | IBM | Apache 2.0 | Unknown |
128 | 133 | Qwen1.5-7B-Chat | 1070 | -1 | 4874 | Alibaba | Qianwen LICENSE | 2024/2 |
128 | 127 | Dolphin-2.2.1-Mistral-7B | 1062 | -1 | 1713 | Cognitive Computations | Apache-2.0 | 2023/10 |
129 | 133 | Mistral-7B-Instruct-v0.2 | 1072 | -0.8 | 20064 | Mistral | Apache-2.0 | 2023/12 |
129 | 133 | Phi-3-Mini-4K-Instruct-June-24 | 1071 | -0.8333333333 | 12810 | Microsoft | MIT | 2023/10 |
129 | 110 | GPT-3.5-Turbo-1106 | 1068 | -0.8333333333 | 17041 | OpenAI | Proprietary | 2021/9 |
130 | 137 | Phi-3-Mini-4k-Instruct | 1066 | -1.666666667 | 21095 | Microsoft | MIT | 2023/10 |
132 | 132 | SOLAR-10.7B-Instruct-v1.0 | 1062 | -1 | 4290 | Upstage AI | CC-BY-NC-4.0 | 2023/11 |
134 | 137 | Llama-2-13b-chat | 1063 | -0.8 | 19717 | Meta | Llama 2 Community | 2023/7 |
135 | 133 | WizardLM-13b-v1.2 | 1058 | -1 | 7176 | Microsoft | Llama 2 Community | 2023/7 |
139 | 142 | Meta-Llama-3.2-1B-Instruct | 1054 | -1.166666667 | 8524 | Meta | Llama 3.2 | 2023/12 |
139 | 140 | Zephyr-7B-beta | 1053 | -0.8571428571 | 11322 | HuggingFace | MIT | 2023/10 |
140 | 133 | SmolLM2-1.7B-Instruct | 1046 | -0.7142857143 | 2374 | HuggingFace | Apache 2.0 | Unknown |
140 | 133 | MPT-30B-chat | 1045 | -1 | 2647 | MosaicML | CC-BY-NC-SA-4.0 | 2023/6 |
140 | 139 | CodeLlama-70B-instruct | 1041 | -0.9411764706 | 1191 | Meta | Llama 2 Community | 2024/1 |
141 | 138 | Zephyr-7B-alpha | 1041 | -0.9285714286 | 1812 | HuggingFace | MIT | 2023/10 |
142 | 141 | CodeLlama-34B-instruct | 1043 | -1 | 7510 | Meta | Llama 2 Community | 2023/7 |
142 | 131 | falcon-180b-chat | 1034 | -0.8823529412 | 1328 | TII | Falcon-180B TII License | 2023/9 |
145 | 135 | Vicuna-13B | 1042 | -1 | 19774 | LMSYS | Llama 2 Community | 2023/7 |
145 | 142 | Gemma-7B-it | 1037 | -1 | 9185 | Gemma license | 2024/2 | |
145 | 142 | Phi-3-Mini-128k-Instruct | 1037 | -1 | 21630 | Microsoft | MIT | 2023/10 |
145 | 156 | Llama-2-7B-chat | 1037 | -1.25 | 14535 | Meta | Llama 2 Community | 2023/7 |
145 | 136 | Qwen-14B-Chat | 1035 | -1.142857143 | 5066 | Alibaba | Qianwen LICENSE | 2023/8 |
145 | 143 | Guanaco-33B | 1033 | -0.8181818182 | 2997 | UW | Non-commercial | 2023/5 |
153 | 146 | Gemma-1.1-2b-it | 1021 | -1.166666667 | 11344 | Gemma license | 2024/2 | |
155 | 149 | StripedHyena-Nous-7B | 1017 | -0.875 | 5276 | Together AI | Apache 2.0 | 2023/12 |
155 | 163 | OLMo-7B-instruct | 1015 | -0.875 | 6500 | Allen AI | Apache-2.0 | 2024/2 |
158 | 155 | Mistral-7B-Instruct-v0.1 | 1008 | -1 | 9145 | Mistral | Apache 2.0 | 2023/9 |
158 | 157 | Vicuna-7B | 1005 | -0.8571428571 | 7015 | LMSYS | Llama 2 Community | 2023/7 |
158 | 146 | PaLM-Chat-Bison-001 | 1003 | -1 | 8715 | Proprietary | 2021/6 | |
161 | 161 | Gemma-2B-it | 989 | -0.8 | 4923 | Gemma license | 2024/2 | |
163 | 160 | Qwen1.5-4B-Chat | 988 | -1.142857143 | 7819 | Alibaba | Qianwen LICENSE | 2024/2 |
165 | 165 | Koala-13B | 964 | -1.142857143 | 7024 | UC Berkeley | Non-commercial | 2023/4 |
165 | 165 | ChatGLM3-6B | 955 | -0.8 | 4764 | Tsinghua | Apache-2.0 | 2023/10 |
166 | 164 | GPT4All-13B-Snoozy | 932 | -0.9333333333 | 1789 | Nomic AI | Non-commercial | 2023/3 |
167 | 165 | MPT-7B-Chat | 928 | -1 | 3999 | MosaicML | CC-BY-NC-SA-4.0 | 2023/5 |
167 | 170 | ChatGLM2-6B | 924 | -1.2 | 2710 | Tsinghua | Apache-2.0 | 2023/6 |
167 | 167 | RWKV-4-Raven-14B | 922 | -0.8888888889 | 4919 | RWKV | Apache 2.0 | 2023/4 |
171 | 165 | Alpaca-13B | 901 | -1 | 5865 | Stanford | Non-commercial | 2023/3 |
171 | 171 | OpenAssistant-Pythia-12B | 893 | -1 | 6368 | OpenAssistant | Apache 2.0 | 2023/4 |
172 | 173 | ChatGLM-6B | 879 | -1.375 | 4983 | Tsinghua | Non-commercial | 2023/3 |
173 | 173 | FastChat-T5-3B | 868 | -0.8888888889 | 4287 | LMSYS | Apache 2.0 | 2023/4 |
175 | 176 | StableLM-Tuned-Alpha-7B | 840 | -1 | 3337 | Stability AI | CC-BY-NC-SA-4.0 | 2023/4 |
175 | 173 | Dolly-V2-12B | 822 | -1.111111111 | 3483 | Databricks | MIT | 2023/4 |
177 | 174 | LLaMA-13B | 799 | -0.6470588235 | 2445 | Meta | Non-commercial | 2023/2 |
아래 huggingface 사이트 참고
https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard
Chatbot Arena Leaderboard - a Hugging Face Space by lmarena-ai
huggingface.co
'AI 소식' 카테고리의 다른 글
Google AI Studio에서 Gemma 3.27B 모델 사용하기: 단계별 가이드 (0) | 2025.03.15 |
---|