총망라 현존하는 LLM과 AI 챗봇 등 AI모델 순위 Chatbot Arena LLM Leaderboard

suncommq 2025. 3. 14. 23:13

2025. 3. 14. 23:13

LMSys Elo 점수란?

LMSys Elo 점수는 대규모 언어 모델(LLM)의 성능을 비교하기 위해 LMSys(Large Model Systems Organization)에서 도입한 평가 방식입니다.

LMSys Elo 점수 개요

LMSys는 사용자 피드백을 기반으로 LLM의 상대적인 강점을 평가하는 Arena 플랫폼을 운영하고 있습니다.
Elo 점수는 체스 등 순위 시스템에서 사용되는 방식과 유사하게, 모델 간 1:1 비교 평가(pairwise comparison) 를 통해 계산됩니다.
사용자는 두 개의 모델이 생성한 응답을 비교한 후, 더 나은 응답을 선택합니다.
많은 사용자의 선택을 통해 모델의 점수가 결정되며, 높은 점수를 받은 모델이 더 강력한 모델로 간주됩니다.

LMSys Elo 점수 계산 방식

두 개의 모델이 동일한 질문에 대한 응답을 생성합니다.
사용자들이 직접 두 응답을 비교하고, 더 나은 응답을 선택합니다.
승패 기록을 기반으로 Elo 점수가 업데이트됩니다.
지속적인 비교를 통해 각 모델의 순위가 변동합니다.

LMSys Elo 점수의 의미

점수가 높을수록 상대적으로 더 나은 응답을 제공하는 모델임을 의미합니다.
GPT-4, Claude, Gemini, Mistral 등 다양한 최신 모델이 평가에 참여합니다.
연구자 및 개발자는 LMSys Elo 점수를 참고하여 어떤 모델이 특정 작업에서 우수한지 판단할 수 있습니다.

95% CI가 무엇인가?

95% CI (Confidence Interval, 신뢰구간) 는 통계에서 특정한 모집단의 참값(평균 또는 비율 등)이 포함될 것으로 예상되는 범위를 의미합니다.

LMSys Elo 점수에서 95% CI의 의미

LMSys Elo 점수는 사용자 비교 평가 데이터를 기반으로 한 통계적 추정치입니다.
따라서 점수가 변동할 수 있으며, 특정한 범위 안에 실제 점수가 있을 확률을 제시해야 합니다.
95% 신뢰구간(95% CI) 는 "우리가 측정한 Elo 점수의 실제 값이 95% 확률로 이 범위 안에 존재한다"는 의미입니다.

예시

만약 GPT-4의 LMSys Elo 점수가 1250 ± 30 (95% CI: [1220, 1280]) 라고 한다면:

GPT-4의 실제 Elo 점수는 1220~1280 사이에 있을 확률이 95%입니다.
즉, 모델의 성능이 단일한 수치가 아니라, 약간의 변동성을 고려한 범위로 이해해야 합니다.

왜 95% 신뢰구간을 사용하는가?

LMSys Elo 점수는 많은 사용자 평가 데이터에서 추정되므로 오차가 포함됩니다.
데이터가 충분하지 않거나 평가 간 차이가 크면 신뢰구간이 넓어질 수 있습니다.
95% CI를 제공하면 점수의 정확성과 신뢰도를 더 잘 해석할 수 있습니다.

즉, LMSys Elo 점수의 95% CI는 모델 평가 결과의 신뢰성을 보여주는 지표입니다.

그러면 type란 무엇인가?

LMSys Elo 순위에서 "type" 은 비교되는 모델의 유형을 나타내는 속성입니다. 보통 다음과 같은 값이 있습니다.

LMSys Elo "type"의 주요 분류

Proprietary (사유 모델)
- 기업에서 개발하여 상업적으로 운영하는 모델
- 예시: gpt-4-turbo, claude-3-opus, gemini-1.5-pro
Open (오픈소스 모델)
- 공개되어 누구나 사용할 수 있는 모델
- 예시: mistral-7b, llama-3-70b, mixtral-8x7b
Fine-tuned (튜닝된 모델)
- 기본 모델을 특정 목적에 맞게 추가 학습한 버전
- 예시: zephyr-7b-beta (fine-tuned)
Anonymous (익명 모델)
- 테스트 중이거나 아직 정식으로 공개되지 않은 모델
- gpt-4-0125-preview (anonymous) 같은 경우

즉, "type"은 해당 모델이 사유(기업 소유)인지, 오픈소스인지, 혹은 튜닝된 버전인지 등을 나타내는 정보입니다.

그러면 #params/#activated 는 무엇?

LMSys Elo 순위에서 #params / #activated 항목은 모델의 규모를 나타내는 지표입니다.

1. #params (파라미터 수, Parameters)

모델이 학습에 사용한 총 가중치(weight) 개수를 의미합니다.
일반적으로 더 많은 파라미터를 가진 모델은 더 복잡한 패턴을 학습할 수 있습니다.
단위: B (Billion, 10억 개)

예시:

Mistral-7B → 7B (70억 개) 파라미터
LLaMA 3-70B → 70B (700억 개) 파라미터

2. #activated (활성화된 파라미터 수, Activated Parameters)

일부 모델(특히 Mixture of Experts, MoE 구조)은 한 번의 실행에서 일부 파라미터만 활성화됩니다.
즉, 모델이 요청을 처리할 때 전체 파라미터를 사용하지 않고, 일부만 선택적으로 활용하는 방식입니다.
이는 메모리 절약 및 속도 최적화에 유리합니다.

예시:

Mixtral-8x7B:
- #params = 56B (총 8개 전문가 × 각 7B)
- #activated = 14B (한 번에 2개 전문가만 활성화됨)

즉, #params는 모델의 전체 크기, #activated는 실제 요청 처리 시 사용되는 파라미터 수를 의미합니다.

LMSys Arena의 최신 순위 정보

Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots

Rank* (UB)	Rank (StyleCtrl)	Model	Arena Score	95% CI	Votes	Organization	License	Knowledge Cutoff
1	1	GPT-4.5-Preview	1404	-0.7777777778	6024	OpenAI	Proprietary	Unknown
1	2	chocolate (Early Grok-3)	1402	-1	14006	xAI	Proprietary	Unknown
4	7	Gemini-2.0-Flash-Thinking-Exp-01-21	1384	-1	19837	Google	Proprietary	Unknown
4	3	Gemini-2.0-Pro-Exp-02-05	1380	-1	17695	Google	Proprietary	Unknown
4	2	ChatGPT-4o-latest (2025-01-29)	1375	-0.8	19587	OpenAI	Proprietary	Unknown
7	5	DeepSeek-R1	1361	-0.8333333333	10474	DeepSeek	MIT	Unknown
7	11	Gemini-2.0-Flash-001	1355	-0.8	15416	Google	Proprietary	Unknown
7	3	o1-2024-12-17	1353	-1	22010	OpenAI	Proprietary	Unknown
10	11	Gemma-3-27B-it	1339	-0.8181818182	3870	Google	Gemma	Unknown
10	11	Qwen2.5-Max	1338	-1	14258	Alibaba	Proprietary	Unknown
10	8	o1-preview	1335	-1	33195	OpenAI	Proprietary	2023/10
10	11	o3-mini-high	1328	-1.2	11409	OpenAI	Proprietary	Unknown
14	13	DeepSeek-V3	1319	-1	23079	DeepSeek	DeepSeek	Unknown
14	19	GLM-4-Plus-0111	1310	-0.875	6037	Zhipu	Proprietary	Unknown
14	16	Qwen-Plus-0125	1310	-0.875	6058	Alibaba	Proprietary	Unknown
15	16	Gemini-2.0-Flash-Lite	1308	-1	15126	Google	Proprietary	Unknown
15	15	o3-mini	1305	-0.6	17849	OpenAI	Proprietary	Unknown
15	7	Claude 3.7 Sonnet	1304	-1	6952	Anthropic	Proprietary	Unknown
15	21	Step-2-16K-Exp	1304	-1.428571429	5138	StepFun	Proprietary	Unknown
15	21	o1-mini	1304	-1	54978	OpenAI	Proprietary	2023/10
15	16	Gemini-1.5-Pro-002	1302	-1	58887	Google	Proprietary	Unknown
23	23	Grok-2-08-13	1288	-0.6666666667	67102	xAI	Proprietary	2024/3
23	25	Yi-Lightning	1287	-0.75	28972	01 AI	Proprietary	Unknown
23	17	GPT-4o-2024-05-13	1285	-1	117785	OpenAI	Proprietary	2023/10
23	11	Claude 3.5 Sonnet (20241022)	1283	-1	61187	Anthropic	Proprietary	2024/4
23	34	Qwen2.5-plus-1127	1282	-1	10742	Alibaba	Proprietary	Unknown
23	28	Deepseek-v2.5-1210	1279	-0.8571428571	7258	DeepSeek	DeepSeek	Unknown
27	35	Athene-v2-Chat-72B	1275	-1	26113	NexusFlow	NexusFlow	Unknown
27	33	GLM-4-Plus	1274	-1.333333333	27780	Zhipu AI	Proprietary	Unknown
27	24	Hunyuan-Large-2025-02-10	1272	-0.8	3863	Tencent	Proprietary	Unknown
28	34	GPT-4o-mini-2024-07-18	1272	-1	67965	OpenAI	Proprietary	2023/10
28	35	Gemini-1.5-Flash-002	1271	-1	37016	Google	Proprietary	Unknown
28	48	Llama-3.1-Nemotron-70B-Instruct	1268	-1.333333333	7579	Nvidia	Llama 3.1	2023/12
29	19	Claude 3.5 Sonnet (20240620)	1268	-1	86188	Anthropic	Proprietary	2024/4
29	21	Meta-Llama-3.1-405B-Instruct-bf16	1268	-0.75	36639	Meta	Llama 3.1 Community	2023/12
31	22	Meta-Llama-3.1-405B-Instruct-fp8	1267	-1	63071	Meta	Llama 3.1 Community	2023/12
31	22	Gemini Advanced App (2024-05-14)	1266	-1	52160	Google	Proprietary	Online
32	43	Grok-2-Mini-08-13	1266	-1	55464	xAI	Proprietary	2024/3
32	23	GPT-4o-2024-08-06	1265	-0.75	48000	OpenAI	Proprietary	2023/10
32	34	Qwen-Max-0919	1263	-0.6666666667	17437	Alibaba	Qwen	Unknown
33	35	Hunyuan-Standard-2025-02-10	1259	-0.6363636364	4027	Tencent	Proprietary	Unknown
38	30	Gemini-1.5-Pro-001	1260	-1	82464	Google	Proprietary	2023/11
41	40	Deepseek-v2.5	1258	-0.75	26356	DeepSeek	DeepSeek	Unknown
41	48	Qwen2.5-72B-Instruct	1257	-0.75	41552	Alibaba	Qwen	2024/9
41	30	GPT-4-Turbo-2024-04-09	1256	-0.6666666667	102184	OpenAI	Proprietary	2023/12
41	33	Llama-3.3-70B-Instruct	1256	-1	30990	Meta	Llama-3.3	Unknown
43	35	Mistral-Large-2407	1251	-1	48216	Mistral	Mistral Research	2024/7
43	44	Athene-70B	1250	-1.25	20599	NexusFlow	CC-BY-NC-4.0	2024/7
47	34	GPT-4-1106-preview	1250	-0.6666666667	103777	OpenAI	Proprietary	2023/4
47	53	Meta-Llama-3.1-70B-Instruct	1248	-0.6666666667	58675	Meta	Llama 3.1 Community	2023/12
47	48	Mistral-Large-2411	1247	-1	25447	Mistral	MRL	Unknown
47	32	Claude 3 Opus	1247	-0.6666666667	202711	Anthropic	Proprietary	2023/8
47	54	Amazon Nova Pro 1.0	1245	-1	20675	Amazon	Proprietary	Unknown
47	50	Llama-3.1-Tulu-3-70B	1243	-0.7272727273	3016	Ai2	Llama 3.1	Unknown
50	35	GPT-4-0125-preview	1245	-0.6666666667	97104	OpenAI	Proprietary	2023/12
55	53	Reka-Core-20240904	1235	-1	7942	Reka AI	Proprietary	Unknown
56	35	Claude 3.5 Haiku (20241022)	1236	-1	26119	Anthropic	Propretary	Unknown
58	56	Gemini-1.5-Flash-001	1227	-1	65681	Google	Proprietary	2023/11
59	54	Jamba-1.5-Large	1221	-0.8571428571	9128	AI21 Labs	Jamba Open	2024/3
60	55	Gemma-2-27B-it	1220	-1	79649	Google	Gemma license	2024/6
60	63	Qwen2.5-Coder-32B-Instruct	1217	-1	5733	Alibaba	Apache 2.0	Unknown
60	56	Gemma-2-9B-it-SimPO	1216	-1	10554	Princeton	MIT	2024/7
60	70	Amazon Nova Lite 1.0	1216	-1	18677	Amazon	Proprietary	Unknown
60	58	Command R+ (08-2024)	1215	-0.5714285714	10544	Cohere	CC-BY-NC-4.0	2024/8
60	65	Mistral-Small-24B-Instruct-2501	1214	-0.8333333333	10979	Mistral	Apache 2.0	Unknown
60	54	Llama-3.1-Nemotron-51B-Instruct	1211	-1	3887	Nvidia	Llama 3.1	2023/12
61	71	Gemini-1.5-Flash-8B-001	1212	-1	37701	Google	Proprietary	Unknown
62	69	Aya-Expanse-32B	1209	-1	28777	Cohere	CC-BY-NC-4.0	Unknown
62	61	Nemotron-4-340B-Instruct	1209	-1.25	20613	Nvidia	NVIDIA Open Model	2023/6
62	64	GLM-4-0520	1207	-0.8333333333	10216	Zhipu AI	Proprietary	Unknown
65	62	Reka-Flash-20240904	1205	-0.7142857143	8138	Reka AI	Proprietary	Unknown
66	62	Llama-3-70B-Instruct	1206	-0.6666666667	163686	Meta	Llama 3 Community	2023/12
68	76	Phi-4	1202	-1	18442	Microsoft	MIT	Unknown
71	61	Claude 3 Sonnet	1201	-1	113094	Anthropic	Proprietary	2023/8
72	84	Amazon Nova Micro 1.0	1197	-0.8	18701	Amazon	Proprietary	Unknown
73	84	Hunyuan-Standard-256K	1189	-1	2902	Tencent	Proprietary	Unknown
76	70	Gemma-2-9B-it	1192	-1	57307	Google	Gemma license	2024/6
76	70	Command R+ (04-2024)	1190	-1	80880	Cohere	CC-BY-NC-4.0	2024/3
76	86	Llama-3.1-Tulu-3-8B	1185	-1.1	3074	Ai2	Llama 3.1	Unknown
77	70	Qwen2-72B-Instruct	1187	-1	38874	Alibaba	Qianwen LICENSE	2024/6
77	58	GPT-4-0314	1186	-1	55966	OpenAI	Proprietary	2021/9
77	84	Ministral-8B-2410	1182	-0.8181818182	5115	Mistral	MRL	Unknown
79	85	Aya-Expanse-8B	1180	-1.2	10405	Cohere	CC-BY-NC-4.0	Unknown
79	72	Command R (08-2024)	1180	-1.2	10842	Cohere	CC-BY-NC-4.0	2024/8
80	70	DeepSeek-Coder-V2-Instruct	1178	-1	15757	DeepSeek AI	DeepSeek License	2024/6
81	75	Claude 3 Haiku	1179	-1	122349	Anthropic	Proprietary	2023/8
81	84	Jamba-1.5-Mini	1176	-0.7142857143	9273	AI21 Labs	Jamba Open	2024/3
81	100	Meta-Llama-3.1-8B-Instruct	1176	-1.333333333	52616	Meta	Llama 3.1 Community	2023/12
90	69	GPT-4-0613	1163	-1	91644	OpenAI	Proprietary	2021/9
90	84	Qwen1.5-110B-Chat	1161	-1	27441	Alibaba	Qianwen LICENSE	2024/4
90	99	Yi-1.5-34B-Chat	1157	-1	25139	01 AI	Apache-2.0	2024/5
90	85	Reka-Flash-21B-online	1156	-1	16024	Reka AI	Proprietary	Online
90	118	QwQ-32B-Preview	1153	-0.7	3413	Alibaba	Apache 2.0	Unknown
91	84	Mistral-Large-2402	1157	-1	64935	Mistral	Proprietary	Unknown
92	92	Llama-3-8B-Instruct	1152	-0.6666666667	109121	Meta	Llama 3 Community	2023/3
92	107	InternLM2.5-20B-chat	1149	-1	10599	InternLM	Other	2024/8
94	89	Command R (04-2024)	1149	-2	56393	Cohere	CC-BY-NC-4.0	2024/3
94	92	Mistral Medium	1148	-0.75	35564	Mistral	Proprietary	Unknown
94	92	Reka-Flash-21B	1148	-1	25819	Reka AI	Proprietary	2023/11
94	95	Granite-3.1-8B-Instruct	1142	-0.75	3302	IBM	Apache 2.0	Unknown
95	88	Mixtral-8x22b-Instruct-v0.1	1147	-1	53787	Mistral	Apache 2.0	2024/4
95	89	Qwen1.5-72B-Chat	1147	-1	40668	Alibaba	Qianwen LICENSE	2024/2
96	107	Gemma-2-2b-it	1144	-0.75	49031	Google	Gemma license	2024/7
104	86	Gemini-1.0-Pro-001	1131	-1.25	18798	Google	Proprietary	2023/4
104	99	Zephyr-ORPO-141b-A35b-v0.1	1127	-0.875	4865	HuggingFace	Apache 2.0	2024/4
105	101	Qwen1.5-32B-Chat	1125	-0.75	22769	Alibaba	Qianwen LICENSE	2024/2
105	110	Granite-3.1-2B-Instruct	1119	-1	3381	IBM	Apache 2.0	Unknown
106	107	Phi-3-Medium-4k-Instruct	1123	-1	26105	Microsoft	MIT	2023/10
106	120	Starling-LM-7B-beta	1119	-1.25	16676	Nexusflow	Apache-2.0	2024/3
108	97	Gemini Pro	1110	-1	6558	Google	Proprietary	2023/4
109	112	Yi-34B-Chat	1111	-1	15922	01 AI	Yi License	2023/6
110	107	Mixtral-8x7B-Instruct-v0.1	1114	#DIV/0!	76132	Mistral	Apache 2.0	2023/12
111	110	Qwen1.5-14B-Chat	1109	-0.8	18679	Alibaba	Qianwen LICENSE	2024/2
111	110	WizardLM-70B-v1.0	1106	-0.8571428571	8382	Microsoft	Llama 2 Community	2023/8
111	115	Meta-Llama-3.2-3B-Instruct	1103	-1	8395	Meta	Llama 3.2	2023/12
112	97	GPT-3.5-Turbo-0125	1106	-1	68893	OpenAI	Proprietary	2021/9
112	107	DBRX-Instruct-Preview	1103	-1	33740	Databricks	DBRX LICENSE	2023/12
112	114	Phi-3-Small-8k-Instruct	1102	-1	18475	Microsoft	MIT	2023/10
113	117	Tulu-2-DPO-70B	1099	-1.166666667	6661	AllenAI/UW	AI2 ImpACT Low-risk	2023/11
117	107	Granite-3.0-8B-Instruct	1093	-0.8571428571	6998	IBM	Apache 2.0	Unknown
118	113	OpenChat-3.5-0106	1091	-1.2	12989	OpenChat	Apache-2.0	2024/1
119	127	Llama-2-70B-chat	1093	-1	39615	Meta	Llama 2 Community	2023/7
120	118	Vicuna-33B	1091	-1	22943	LMSYS	Non-commercial	2023/8
120	112	Snowflake Arctic Instruct	1090	-0.75	34192	Snowflake	Apache 2.0	2024/4
120	122	Starling-LM-7B-alpha	1088	-1	10418	UC Berkeley	CC-BY-NC-4.0	2023/11
120	131	Nous-Hermes-2-Mixtral-8x7B-DPO	1084	-1.125	3835	NousResearch	Apache-2.0	2024/1
121	127	NV-Llama2-70B-SteerLM-Chat	1081	-1.111111111	3638	Nvidia	Llama 2 Community	2023/11
122	113	Gemma-1.1-7B-it	1084	-1	25070	Google	Gemma license	2024/2
126	117	DeepSeek-LLM-67B-Chat	1077	-1.142857143	4989	DeepSeek AI	DeepSeek License	2023/11
127	115	OpenChat-3.5	1077	-0.8571428571	8110	OpenChat	Apache-2.0	2023/11
127	118	OpenHermes-2.5-Mistral-7B	1074	-1.166666667	5088	NousResearch	Apache-2.0	2023/11
127	125	Granite-3.0-2B-Instruct	1074	-1	7191	IBM	Apache 2.0	Unknown
128	133	Qwen1.5-7B-Chat	1070	-1	4874	Alibaba	Qianwen LICENSE	2024/2
128	127	Dolphin-2.2.1-Mistral-7B	1062	-1	1713	Cognitive Computations	Apache-2.0	2023/10
129	133	Mistral-7B-Instruct-v0.2	1072	-0.8	20064	Mistral	Apache-2.0	2023/12
129	133	Phi-3-Mini-4K-Instruct-June-24	1071	-0.8333333333	12810	Microsoft	MIT	2023/10
129	110	GPT-3.5-Turbo-1106	1068	-0.8333333333	17041	OpenAI	Proprietary	2021/9
130	137	Phi-3-Mini-4k-Instruct	1066	-1.666666667	21095	Microsoft	MIT	2023/10
132	132	SOLAR-10.7B-Instruct-v1.0	1062	-1	4290	Upstage AI	CC-BY-NC-4.0	2023/11
134	137	Llama-2-13b-chat	1063	-0.8	19717	Meta	Llama 2 Community	2023/7
135	133	WizardLM-13b-v1.2	1058	-1	7176	Microsoft	Llama 2 Community	2023/7
139	142	Meta-Llama-3.2-1B-Instruct	1054	-1.166666667	8524	Meta	Llama 3.2	2023/12
139	140	Zephyr-7B-beta	1053	-0.8571428571	11322	HuggingFace	MIT	2023/10
140	133	SmolLM2-1.7B-Instruct	1046	-0.7142857143	2374	HuggingFace	Apache 2.0	Unknown
140	133	MPT-30B-chat	1045	-1	2647	MosaicML	CC-BY-NC-SA-4.0	2023/6
140	139	CodeLlama-70B-instruct	1041	-0.9411764706	1191	Meta	Llama 2 Community	2024/1
141	138	Zephyr-7B-alpha	1041	-0.9285714286	1812	HuggingFace	MIT	2023/10
142	141	CodeLlama-34B-instruct	1043	-1	7510	Meta	Llama 2 Community	2023/7
142	131	falcon-180b-chat	1034	-0.8823529412	1328	TII	Falcon-180B TII License	2023/9
145	135	Vicuna-13B	1042	-1	19774	LMSYS	Llama 2 Community	2023/7
145	142	Gemma-7B-it	1037	-1	9185	Google	Gemma license	2024/2
145	142	Phi-3-Mini-128k-Instruct	1037	-1	21630	Microsoft	MIT	2023/10
145	156	Llama-2-7B-chat	1037	-1.25	14535	Meta	Llama 2 Community	2023/7
145	136	Qwen-14B-Chat	1035	-1.142857143	5066	Alibaba	Qianwen LICENSE	2023/8
145	143	Guanaco-33B	1033	-0.8181818182	2997	UW	Non-commercial	2023/5
153	146	Gemma-1.1-2b-it	1021	-1.166666667	11344	Google	Gemma license	2024/2
155	149	StripedHyena-Nous-7B	1017	-0.875	5276	Together AI	Apache 2.0	2023/12
155	163	OLMo-7B-instruct	1015	-0.875	6500	Allen AI	Apache-2.0	2024/2
158	155	Mistral-7B-Instruct-v0.1	1008	-1	9145	Mistral	Apache 2.0	2023/9
158	157	Vicuna-7B	1005	-0.8571428571	7015	LMSYS	Llama 2 Community	2023/7
158	146	PaLM-Chat-Bison-001	1003	-1	8715	Google	Proprietary	2021/6
161	161	Gemma-2B-it	989	-0.8	4923	Google	Gemma license	2024/2
163	160	Qwen1.5-4B-Chat	988	-1.142857143	7819	Alibaba	Qianwen LICENSE	2024/2
165	165	Koala-13B	964	-1.142857143	7024	UC Berkeley	Non-commercial	2023/4
165	165	ChatGLM3-6B	955	-0.8	4764	Tsinghua	Apache-2.0	2023/10
166	164	GPT4All-13B-Snoozy	932	-0.9333333333	1789	Nomic AI	Non-commercial	2023/3
167	165	MPT-7B-Chat	928	-1	3999	MosaicML	CC-BY-NC-SA-4.0	2023/5
167	170	ChatGLM2-6B	924	-1.2	2710	Tsinghua	Apache-2.0	2023/6
167	167	RWKV-4-Raven-14B	922	-0.8888888889	4919	RWKV	Apache 2.0	2023/4
171	165	Alpaca-13B	901	-1	5865	Stanford	Non-commercial	2023/3
171	171	OpenAssistant-Pythia-12B	893	-1	6368	OpenAssistant	Apache 2.0	2023/4
172	173	ChatGLM-6B	879	-1.375	4983	Tsinghua	Non-commercial	2023/3
173	173	FastChat-T5-3B	868	-0.8888888889	4287	LMSYS	Apache 2.0	2023/4
175	176	StableLM-Tuned-Alpha-7B	840	-1	3337	Stability AI	CC-BY-NC-SA-4.0	2023/4
175	173	Dolly-V2-12B	822	-1.111111111	3483	Databricks	MIT	2023/4
177	174	LLaMA-13B	799	-0.6470588235	2445	Meta	Non-commercial	2023/2

아래 huggingface 사이트 참고

https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

Chatbot Arena Leaderboard - a Hugging Face Space by lmarena-ai

huggingface.co

LIST

'AI 소식' 카테고리의 다른 글

Google AI Studio에서 Gemma 3.27B 모델 사용하기: 단계별 가이드 (0)	2025.03.15

suncommq 님의 블로그 스테이블 디퓨전 등 생성형 AI 모델을 활용해서 영상물 제작과 팁을 공유하기 위해 블로그를 제작하였습니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

suncommq 님의 블로그

총망라 현존하는 LLM과 AI 챗봇 등 AI모델 순위 Chatbot Arena LLM Leaderboard

LMSys Elo 점수란?

95% CI가 무엇인가?

그러면 type란 무엇인가?

그러면 #params/#activated 는 무엇?

LMSys Arena의 최신 순위 정보

Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots

'AI 소식' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역