LMSys Elo 점수란?

 

LMSys Elo 점수는 대규모 언어 모델(LLM)의 성능을 비교하기 위해 LMSys(Large Model Systems Organization)에서 도입한 평가 방식입니다.

 

LMSys Elo 점수 개요

  • LMSys는 사용자 피드백을 기반으로 LLM의 상대적인 강점을 평가하는 Arena 플랫폼을 운영하고 있습니다.
  • Elo 점수는 체스 등 순위 시스템에서 사용되는 방식과 유사하게, 모델 간 1:1 비교 평가(pairwise comparison) 를 통해 계산됩니다.
  • 사용자는 두 개의 모델이 생성한 응답을 비교한 후, 더 나은 응답을 선택합니다.
  • 많은 사용자의 선택을 통해 모델의 점수가 결정되며, 높은 점수를 받은 모델이 더 강력한 모델로 간주됩니다.

LMSys Elo 점수 계산 방식

  1. 두 개의 모델이 동일한 질문에 대한 응답을 생성합니다.
  2. 사용자들이 직접 두 응답을 비교하고, 더 나은 응답을 선택합니다.
  3. 승패 기록을 기반으로 Elo 점수가 업데이트됩니다.
  4. 지속적인 비교를 통해 각 모델의 순위가 변동합니다.

LMSys Elo 점수의 의미

  • 점수가 높을수록 상대적으로 더 나은 응답을 제공하는 모델임을 의미합니다.
  • GPT-4, Claude, Gemini, Mistral 등 다양한 최신 모델이 평가에 참여합니다.
  • 연구자 및 개발자는 LMSys Elo 점수를 참고하여 어떤 모델이 특정 작업에서 우수한지 판단할 수 있습니다.

 

95% CI가 무엇인가?

95% CI (Confidence Interval, 신뢰구간) 는 통계에서 특정한 모집단의 참값(평균 또는 비율 등)이 포함될 것으로 예상되는 범위를 의미합니다.

 

LMSys Elo 점수에서 95% CI의 의미

  • LMSys Elo 점수는 사용자 비교 평가 데이터를 기반으로 한 통계적 추정치입니다.
  • 따라서 점수가 변동할 수 있으며, 특정한 범위 안에 실제 점수가 있을 확률을 제시해야 합니다.
  • 95% 신뢰구간(95% CI) 는 "우리가 측정한 Elo 점수의 실제 값이 95% 확률로 이 범위 안에 존재한다"는 의미입니다.

예시

만약 GPT-4의 LMSys Elo 점수가 1250 ± 30 (95% CI: [1220, 1280]) 라고 한다면:

  • GPT-4의 실제 Elo 점수는 1220~1280 사이에 있을 확률이 95%입니다.
  • 즉, 모델의 성능이 단일한 수치가 아니라, 약간의 변동성을 고려한 범위로 이해해야 합니다.

왜 95% 신뢰구간을 사용하는가?

  • LMSys Elo 점수는 많은 사용자 평가 데이터에서 추정되므로 오차가 포함됩니다.
  • 데이터가 충분하지 않거나 평가 간 차이가 크면 신뢰구간이 넓어질 수 있습니다.
  • 95% CI를 제공하면 점수의 정확성과 신뢰도를 더 잘 해석할 수 있습니다.

즉, LMSys Elo 점수의 95% CI는 모델 평가 결과의 신뢰성을 보여주는 지표입니다.

 

그러면 type란 무엇인가?

LMSys Elo 순위에서 "type" 은 비교되는 모델의 유형을 나타내는 속성입니다. 보통 다음과 같은 값이 있습니다.

 

LMSys Elo "type"의 주요 분류

  1. Proprietary (사유 모델)
    • 기업에서 개발하여 상업적으로 운영하는 모델
    • 예시: gpt-4-turbo, claude-3-opus, gemini-1.5-pro
  2. Open (오픈소스 모델)
    • 공개되어 누구나 사용할 수 있는 모델
    • 예시: mistral-7b, llama-3-70b, mixtral-8x7b
  3. Fine-tuned (튜닝된 모델)
    • 기본 모델을 특정 목적에 맞게 추가 학습한 버전
    • 예시: zephyr-7b-beta (fine-tuned)
  4. Anonymous (익명 모델)
    • 테스트 중이거나 아직 정식으로 공개되지 않은 모델
    • gpt-4-0125-preview (anonymous) 같은 경우

즉, "type"은 해당 모델이 사유(기업 소유)인지, 오픈소스인지, 혹은 튜닝된 버전인지 등을 나타내는 정보입니다.

 

그러면 #params/#activated 는 무엇?

LMSys Elo 순위에서 #params / #activated 항목은 모델의 규모를 나타내는 지표입니다.

 

1. #params (파라미터 수, Parameters)

  • 모델이 학습에 사용한 총 가중치(weight) 개수를 의미합니다.
  • 일반적으로 더 많은 파라미터를 가진 모델은 더 복잡한 패턴을 학습할 수 있습니다.
  • 단위: B (Billion, 10억 개)

예시:

  • Mistral-7B → 7B (70억 개) 파라미터
  • LLaMA 3-70B → 70B (700억 개) 파라미터

2. #activated (활성화된 파라미터 수, Activated Parameters)

  • 일부 모델(특히 Mixture of Experts, MoE 구조)은 한 번의 실행에서 일부 파라미터만 활성화됩니다.
  • 즉, 모델이 요청을 처리할 때 전체 파라미터를 사용하지 않고, 일부만 선택적으로 활용하는 방식입니다.
  • 이는 메모리 절약 및 속도 최적화에 유리합니다.

예시:

  • Mixtral-8x7B:
    • #params = 56B (총 8개 전문가 × 각 7B)
    • #activated = 14B (한 번에 2개 전문가만 활성화됨)

즉, #params는 모델의 전체 크기, #activated는 실제 요청 처리 시 사용되는 파라미터 수를 의미합니다.

 

LMSys Arena의 최신 순위 정보

Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots

Rank* (UB) Rank (StyleCtrl) Model Arena Score 95% CI Votes Organization License Knowledge Cutoff
1 1 GPT-4.5-Preview 1404 -0.7777777778 6024 OpenAI Proprietary Unknown
1 2 chocolate (Early Grok-3) 1402 -1 14006 xAI Proprietary Unknown
4 7 Gemini-2.0-Flash-Thinking-Exp-01-21 1384 -1 19837 Google Proprietary Unknown
4 3 Gemini-2.0-Pro-Exp-02-05 1380 -1 17695 Google Proprietary Unknown
4 2 ChatGPT-4o-latest (2025-01-29) 1375 -0.8 19587 OpenAI Proprietary Unknown
7 5 DeepSeek-R1 1361 -0.8333333333 10474 DeepSeek MIT Unknown
7 11 Gemini-2.0-Flash-001 1355 -0.8 15416 Google Proprietary Unknown
7 3 o1-2024-12-17 1353 -1 22010 OpenAI Proprietary Unknown
10 11 Gemma-3-27B-it 1339 -0.8181818182 3870 Google Gemma Unknown
10 11 Qwen2.5-Max 1338 -1 14258 Alibaba Proprietary Unknown
10 8 o1-preview 1335 -1 33195 OpenAI Proprietary 2023/10
10 11 o3-mini-high 1328 -1.2 11409 OpenAI Proprietary Unknown
14 13 DeepSeek-V3 1319 -1 23079 DeepSeek DeepSeek Unknown
14 19 GLM-4-Plus-0111 1310 -0.875 6037 Zhipu Proprietary Unknown
14 16 Qwen-Plus-0125 1310 -0.875 6058 Alibaba Proprietary Unknown
15 16 Gemini-2.0-Flash-Lite 1308 -1 15126 Google Proprietary Unknown
15 15 o3-mini 1305 -0.6 17849 OpenAI Proprietary Unknown
15 7 Claude 3.7 Sonnet 1304 -1 6952 Anthropic Proprietary Unknown
15 21 Step-2-16K-Exp 1304 -1.428571429 5138 StepFun Proprietary Unknown
15 21 o1-mini 1304 -1 54978 OpenAI Proprietary 2023/10
15 16 Gemini-1.5-Pro-002 1302 -1 58887 Google Proprietary Unknown
23 23 Grok-2-08-13 1288 -0.6666666667 67102 xAI Proprietary 2024/3
23 25 Yi-Lightning 1287 -0.75 28972 01 AI Proprietary Unknown
23 17 GPT-4o-2024-05-13 1285 -1 117785 OpenAI Proprietary 2023/10
23 11 Claude 3.5 Sonnet (20241022) 1283 -1 61187 Anthropic Proprietary 2024/4
23 34 Qwen2.5-plus-1127 1282 -1 10742 Alibaba Proprietary Unknown
23 28 Deepseek-v2.5-1210 1279 -0.8571428571 7258 DeepSeek DeepSeek Unknown
27 35 Athene-v2-Chat-72B 1275 -1 26113 NexusFlow NexusFlow Unknown
27 33 GLM-4-Plus 1274 -1.333333333 27780 Zhipu AI Proprietary Unknown
27 24 Hunyuan-Large-2025-02-10 1272 -0.8 3863 Tencent Proprietary Unknown
28 34 GPT-4o-mini-2024-07-18 1272 -1 67965 OpenAI Proprietary 2023/10
28 35 Gemini-1.5-Flash-002 1271 -1 37016 Google Proprietary Unknown
28 48 Llama-3.1-Nemotron-70B-Instruct 1268 -1.333333333 7579 Nvidia Llama 3.1 2023/12
29 19 Claude 3.5 Sonnet (20240620) 1268 -1 86188 Anthropic Proprietary 2024/4
29 21 Meta-Llama-3.1-405B-Instruct-bf16 1268 -0.75 36639 Meta Llama 3.1 Community 2023/12
31 22 Meta-Llama-3.1-405B-Instruct-fp8 1267 -1 63071 Meta Llama 3.1 Community 2023/12
31 22 Gemini Advanced App (2024-05-14) 1266 -1 52160 Google Proprietary Online
32 43 Grok-2-Mini-08-13 1266 -1 55464 xAI Proprietary 2024/3
32 23 GPT-4o-2024-08-06 1265 -0.75 48000 OpenAI Proprietary 2023/10
32 34 Qwen-Max-0919 1263 -0.6666666667 17437 Alibaba Qwen Unknown
33 35 Hunyuan-Standard-2025-02-10 1259 -0.6363636364 4027 Tencent Proprietary Unknown
38 30 Gemini-1.5-Pro-001 1260 -1 82464 Google Proprietary 2023/11
41 40 Deepseek-v2.5 1258 -0.75 26356 DeepSeek DeepSeek Unknown
41 48 Qwen2.5-72B-Instruct 1257 -0.75 41552 Alibaba Qwen 2024/9
41 30 GPT-4-Turbo-2024-04-09 1256 -0.6666666667 102184 OpenAI Proprietary 2023/12
41 33 Llama-3.3-70B-Instruct 1256 -1 30990 Meta Llama-3.3 Unknown
43 35 Mistral-Large-2407 1251 -1 48216 Mistral Mistral Research 2024/7
43 44 Athene-70B 1250 -1.25 20599 NexusFlow CC-BY-NC-4.0 2024/7
47 34 GPT-4-1106-preview 1250 -0.6666666667 103777 OpenAI Proprietary 2023/4
47 53 Meta-Llama-3.1-70B-Instruct 1248 -0.6666666667 58675 Meta Llama 3.1 Community 2023/12
47 48 Mistral-Large-2411 1247 -1 25447 Mistral MRL Unknown
47 32 Claude 3 Opus 1247 -0.6666666667 202711 Anthropic Proprietary 2023/8
47 54 Amazon Nova Pro 1.0 1245 -1 20675 Amazon Proprietary Unknown
47 50 Llama-3.1-Tulu-3-70B 1243 -0.7272727273 3016 Ai2 Llama 3.1 Unknown
50 35 GPT-4-0125-preview 1245 -0.6666666667 97104 OpenAI Proprietary 2023/12
55 53 Reka-Core-20240904 1235 -1 7942 Reka AI Proprietary Unknown
56 35 Claude 3.5 Haiku (20241022) 1236 -1 26119 Anthropic Propretary Unknown
58 56 Gemini-1.5-Flash-001 1227 -1 65681 Google Proprietary 2023/11
59 54 Jamba-1.5-Large 1221 -0.8571428571 9128 AI21 Labs Jamba Open 2024/3
60 55 Gemma-2-27B-it 1220 -1 79649 Google Gemma license 2024/6
60 63 Qwen2.5-Coder-32B-Instruct 1217 -1 5733 Alibaba Apache 2.0 Unknown
60 56 Gemma-2-9B-it-SimPO 1216 -1 10554 Princeton MIT 2024/7
60 70 Amazon Nova Lite 1.0 1216 -1 18677 Amazon Proprietary Unknown
60 58 Command R+ (08-2024) 1215 -0.5714285714 10544 Cohere CC-BY-NC-4.0 2024/8
60 65 Mistral-Small-24B-Instruct-2501 1214 -0.8333333333 10979 Mistral Apache 2.0 Unknown
60 54 Llama-3.1-Nemotron-51B-Instruct 1211 -1 3887 Nvidia Llama 3.1 2023/12
61 71 Gemini-1.5-Flash-8B-001 1212 -1 37701 Google Proprietary Unknown
62 69 Aya-Expanse-32B 1209 -1 28777 Cohere CC-BY-NC-4.0 Unknown
62 61 Nemotron-4-340B-Instruct 1209 -1.25 20613 Nvidia NVIDIA Open Model 2023/6
62 64 GLM-4-0520 1207 -0.8333333333 10216 Zhipu AI Proprietary Unknown
65 62 Reka-Flash-20240904 1205 -0.7142857143 8138 Reka AI Proprietary Unknown
66 62 Llama-3-70B-Instruct 1206 -0.6666666667 163686 Meta Llama 3 Community 2023/12
68 76 Phi-4 1202 -1 18442 Microsoft MIT Unknown
71 61 Claude 3 Sonnet 1201 -1 113094 Anthropic Proprietary 2023/8
72 84 Amazon Nova Micro 1.0 1197 -0.8 18701 Amazon Proprietary Unknown
73 84 Hunyuan-Standard-256K 1189 -1 2902 Tencent Proprietary Unknown
76 70 Gemma-2-9B-it 1192 -1 57307 Google Gemma license 2024/6
76 70 Command R+ (04-2024) 1190 -1 80880 Cohere CC-BY-NC-4.0 2024/3
76 86 Llama-3.1-Tulu-3-8B 1185 -1.1 3074 Ai2 Llama 3.1 Unknown
77 70 Qwen2-72B-Instruct 1187 -1 38874 Alibaba Qianwen LICENSE 2024/6
77 58 GPT-4-0314 1186 -1 55966 OpenAI Proprietary 2021/9
77 84 Ministral-8B-2410 1182 -0.8181818182 5115 Mistral MRL Unknown
79 85 Aya-Expanse-8B 1180 -1.2 10405 Cohere CC-BY-NC-4.0 Unknown
79 72 Command R (08-2024) 1180 -1.2 10842 Cohere CC-BY-NC-4.0 2024/8
80 70 DeepSeek-Coder-V2-Instruct 1178 -1 15757 DeepSeek AI DeepSeek License 2024/6
81 75 Claude 3 Haiku 1179 -1 122349 Anthropic Proprietary 2023/8
81 84 Jamba-1.5-Mini 1176 -0.7142857143 9273 AI21 Labs Jamba Open 2024/3
81 100 Meta-Llama-3.1-8B-Instruct 1176 -1.333333333 52616 Meta Llama 3.1 Community 2023/12
90 69 GPT-4-0613 1163 -1 91644 OpenAI Proprietary 2021/9
90 84 Qwen1.5-110B-Chat 1161 -1 27441 Alibaba Qianwen LICENSE 2024/4
90 99 Yi-1.5-34B-Chat 1157 -1 25139 01 AI Apache-2.0 2024/5
90 85 Reka-Flash-21B-online 1156 -1 16024 Reka AI Proprietary Online
90 118 QwQ-32B-Preview 1153 -0.7 3413 Alibaba Apache 2.0 Unknown
91 84 Mistral-Large-2402 1157 -1 64935 Mistral Proprietary Unknown
92 92 Llama-3-8B-Instruct 1152 -0.6666666667 109121 Meta Llama 3 Community 2023/3
92 107 InternLM2.5-20B-chat 1149 -1 10599 InternLM Other 2024/8
94 89 Command R (04-2024) 1149 -2 56393 Cohere CC-BY-NC-4.0 2024/3
94 92 Mistral Medium 1148 -0.75 35564 Mistral Proprietary Unknown
94 92 Reka-Flash-21B 1148 -1 25819 Reka AI Proprietary 2023/11
94 95 Granite-3.1-8B-Instruct 1142 -0.75 3302 IBM Apache 2.0 Unknown
95 88 Mixtral-8x22b-Instruct-v0.1 1147 -1 53787 Mistral Apache 2.0 2024/4
95 89 Qwen1.5-72B-Chat 1147 -1 40668 Alibaba Qianwen LICENSE 2024/2
96 107 Gemma-2-2b-it 1144 -0.75 49031 Google Gemma license 2024/7
104 86 Gemini-1.0-Pro-001 1131 -1.25 18798 Google Proprietary 2023/4
104 99 Zephyr-ORPO-141b-A35b-v0.1 1127 -0.875 4865 HuggingFace Apache 2.0 2024/4
105 101 Qwen1.5-32B-Chat 1125 -0.75 22769 Alibaba Qianwen LICENSE 2024/2
105 110 Granite-3.1-2B-Instruct 1119 -1 3381 IBM Apache 2.0 Unknown
106 107 Phi-3-Medium-4k-Instruct 1123 -1 26105 Microsoft MIT 2023/10
106 120 Starling-LM-7B-beta 1119 -1.25 16676 Nexusflow Apache-2.0 2024/3
108 97 Gemini Pro 1110 -1 6558 Google Proprietary 2023/4
109 112 Yi-34B-Chat 1111 -1 15922 01 AI Yi License 2023/6
110 107 Mixtral-8x7B-Instruct-v0.1 1114 #DIV/0! 76132 Mistral Apache 2.0 2023/12
111 110 Qwen1.5-14B-Chat 1109 -0.8 18679 Alibaba Qianwen LICENSE 2024/2
111 110 WizardLM-70B-v1.0 1106 -0.8571428571 8382 Microsoft Llama 2 Community 2023/8
111 115 Meta-Llama-3.2-3B-Instruct 1103 -1 8395 Meta Llama 3.2 2023/12
112 97 GPT-3.5-Turbo-0125 1106 -1 68893 OpenAI Proprietary 2021/9
112 107 DBRX-Instruct-Preview 1103 -1 33740 Databricks DBRX LICENSE 2023/12
112 114 Phi-3-Small-8k-Instruct 1102 -1 18475 Microsoft MIT 2023/10
113 117 Tulu-2-DPO-70B 1099 -1.166666667 6661 AllenAI/UW AI2 ImpACT Low-risk 2023/11
117 107 Granite-3.0-8B-Instruct 1093 -0.8571428571 6998 IBM Apache 2.0 Unknown
118 113 OpenChat-3.5-0106 1091 -1.2 12989 OpenChat Apache-2.0 2024/1
119 127 Llama-2-70B-chat 1093 -1 39615 Meta Llama 2 Community 2023/7
120 118 Vicuna-33B 1091 -1 22943 LMSYS Non-commercial 2023/8
120 112 Snowflake Arctic Instruct 1090 -0.75 34192 Snowflake Apache 2.0 2024/4
120 122 Starling-LM-7B-alpha 1088 -1 10418 UC Berkeley CC-BY-NC-4.0 2023/11
120 131 Nous-Hermes-2-Mixtral-8x7B-DPO 1084 -1.125 3835 NousResearch Apache-2.0 2024/1
121 127 NV-Llama2-70B-SteerLM-Chat 1081 -1.111111111 3638 Nvidia Llama 2 Community 2023/11
122 113 Gemma-1.1-7B-it 1084 -1 25070 Google Gemma license 2024/2
126 117 DeepSeek-LLM-67B-Chat 1077 -1.142857143 4989 DeepSeek AI DeepSeek License 2023/11
127 115 OpenChat-3.5 1077 -0.8571428571 8110 OpenChat Apache-2.0 2023/11
127 118 OpenHermes-2.5-Mistral-7B 1074 -1.166666667 5088 NousResearch Apache-2.0 2023/11
127 125 Granite-3.0-2B-Instruct 1074 -1 7191 IBM Apache 2.0 Unknown
128 133 Qwen1.5-7B-Chat 1070 -1 4874 Alibaba Qianwen LICENSE 2024/2
128 127 Dolphin-2.2.1-Mistral-7B 1062 -1 1713 Cognitive Computations Apache-2.0 2023/10
129 133 Mistral-7B-Instruct-v0.2 1072 -0.8 20064 Mistral Apache-2.0 2023/12
129 133 Phi-3-Mini-4K-Instruct-June-24 1071 -0.8333333333 12810 Microsoft MIT 2023/10
129 110 GPT-3.5-Turbo-1106 1068 -0.8333333333 17041 OpenAI Proprietary 2021/9
130 137 Phi-3-Mini-4k-Instruct 1066 -1.666666667 21095 Microsoft MIT 2023/10
132 132 SOLAR-10.7B-Instruct-v1.0 1062 -1 4290 Upstage AI CC-BY-NC-4.0 2023/11
134 137 Llama-2-13b-chat 1063 -0.8 19717 Meta Llama 2 Community 2023/7
135 133 WizardLM-13b-v1.2 1058 -1 7176 Microsoft Llama 2 Community 2023/7
139 142 Meta-Llama-3.2-1B-Instruct 1054 -1.166666667 8524 Meta Llama 3.2 2023/12
139 140 Zephyr-7B-beta 1053 -0.8571428571 11322 HuggingFace MIT 2023/10
140 133 SmolLM2-1.7B-Instruct 1046 -0.7142857143 2374 HuggingFace Apache 2.0 Unknown
140 133 MPT-30B-chat 1045 -1 2647 MosaicML CC-BY-NC-SA-4.0 2023/6
140 139 CodeLlama-70B-instruct 1041 -0.9411764706 1191 Meta Llama 2 Community 2024/1
141 138 Zephyr-7B-alpha 1041 -0.9285714286 1812 HuggingFace MIT 2023/10
142 141 CodeLlama-34B-instruct 1043 -1 7510 Meta Llama 2 Community 2023/7
142 131 falcon-180b-chat 1034 -0.8823529412 1328 TII Falcon-180B TII License 2023/9
145 135 Vicuna-13B 1042 -1 19774 LMSYS Llama 2 Community 2023/7
145 142 Gemma-7B-it 1037 -1 9185 Google Gemma license 2024/2
145 142 Phi-3-Mini-128k-Instruct 1037 -1 21630 Microsoft MIT 2023/10
145 156 Llama-2-7B-chat 1037 -1.25 14535 Meta Llama 2 Community 2023/7
145 136 Qwen-14B-Chat 1035 -1.142857143 5066 Alibaba Qianwen LICENSE 2023/8
145 143 Guanaco-33B 1033 -0.8181818182 2997 UW Non-commercial 2023/5
153 146 Gemma-1.1-2b-it 1021 -1.166666667 11344 Google Gemma license 2024/2
155 149 StripedHyena-Nous-7B 1017 -0.875 5276 Together AI Apache 2.0 2023/12
155 163 OLMo-7B-instruct 1015 -0.875 6500 Allen AI Apache-2.0 2024/2
158 155 Mistral-7B-Instruct-v0.1 1008 -1 9145 Mistral Apache 2.0 2023/9
158 157 Vicuna-7B 1005 -0.8571428571 7015 LMSYS Llama 2 Community 2023/7
158 146 PaLM-Chat-Bison-001 1003 -1 8715 Google Proprietary 2021/6
161 161 Gemma-2B-it 989 -0.8 4923 Google Gemma license 2024/2
163 160 Qwen1.5-4B-Chat 988 -1.142857143 7819 Alibaba Qianwen LICENSE 2024/2
165 165 Koala-13B 964 -1.142857143 7024 UC Berkeley Non-commercial 2023/4
165 165 ChatGLM3-6B 955 -0.8 4764 Tsinghua Apache-2.0 2023/10
166 164 GPT4All-13B-Snoozy 932 -0.9333333333 1789 Nomic AI Non-commercial 2023/3
167 165 MPT-7B-Chat 928 -1 3999 MosaicML CC-BY-NC-SA-4.0 2023/5
167 170 ChatGLM2-6B 924 -1.2 2710 Tsinghua Apache-2.0 2023/6
167 167 RWKV-4-Raven-14B 922 -0.8888888889 4919 RWKV Apache 2.0 2023/4
171 165 Alpaca-13B 901 -1 5865 Stanford Non-commercial 2023/3
171 171 OpenAssistant-Pythia-12B 893 -1 6368 OpenAssistant Apache 2.0 2023/4
172 173 ChatGLM-6B 879 -1.375 4983 Tsinghua Non-commercial 2023/3
173 173 FastChat-T5-3B 868 -0.8888888889 4287 LMSYS Apache 2.0 2023/4
175 176 StableLM-Tuned-Alpha-7B 840 -1 3337 Stability AI CC-BY-NC-SA-4.0 2023/4
175 173 Dolly-V2-12B 822 -1.111111111 3483 Databricks MIT 2023/4
177 174 LLaMA-13B 799 -0.6470588235 2445 Meta Non-commercial 2023/2

 

아래 huggingface 사이트 참고

 

https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

 

Chatbot Arena Leaderboard - a Hugging Face Space by lmarena-ai

 

huggingface.co

 

반응형
LIST

+ Recent posts