OpenLLMLeaderboard之DataLearner备份

大模型评测得分排行榜Open LLM Leaderboard中国站

为了方便大家更便捷查询，DataLearnerAI发布了DataLearnerAI-GPT：目前已经支持基于OpenLLMLeaderboard数据回答任意大模型评测结果数据地址如下：

https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt

关于DataLearnerAI-GPT的详细介绍参考：https://www.datalearner.com/blog/1051699757266256

随着大量大型语言模型（LLMs）和聊天机器人每周都在发布，它们往往伴随着对性能的夸大宣称，要筛选出由开源社区所取得的真正进展以及哪个模型是当前的技术领先水平，可能会非常困难。

为此，HF推出了这个大模型开放评测追踪排行榜。📐 🤗 Open LLM Leaderboard 旨在追踪、排名和评估开源大型语言模型（LLMs）和聊天机器人在不同评测任务上的得分。

由于HuggingFace的访问稳定性和速度，我们提供了同步更新的结果。原网页请访问：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Open LLM Leaderboard排行榜的各个评测任务介绍

AI2 Reasoning Challenge (25-shot)

一套小学科学问题。
HellaSwag (10-shot)

对于人类而言简单（大约95%）的常识推理测试，但对于最新技术模型而言具有挑战性。
MMLU (5-shot)

测试文本模型的多任务准确性，涵盖57项任务，包括小学数学、美国历史、计算机科学、法律等。
TruthfulQA (0-shot)

测试模型复制网络上常见虚假信息的倾向。注意：工具中的 TruthfulQA 实际上至少是6次尝试的任务。
Winogrande (5-shot)

大规模的、具有对抗性的、困难的 Winograd 基准测试，用于常识推理。
GSM8k (5-shot)

多样化的小学数学文字问题，用于测试模型解决多步骤数学推理问题的能力。

下表中关于模型类型的图标解释如下：

🟢 : 预训练模型：这类模型是新的基础模型，它们是基于特定数据集进行预训练的。

🔶 ：领域特定微调模型：这些预训练模型经过了针对特定领域数据集的进一步微调，以获得更好的性能。

💬 ：聊天模型：包括使用任务指令数据集的IFT（指令式任务训练）、RLHF（强化学习从人类反馈）或DPO（通过增加策略稍微改变模型的损失）等方法进行的聊天式微调模型。

🤝 ：基础合并和Moerges模型：这类模型通过合并或MoErges（模型融合）技术集成了多个模型，但不需要额外的微调。如果您发现没有图标的模型，请随时提交问题，以补充模型信息。

❓：表示未知

你可以按照如下类型筛选不同类型的模型来排序：

全部模型

Pretrained Models

Fine Tuned Models

Chat Models

Merged or MoE Models

模型名称	模型类型	参数大小（亿）	平均分	ARC分数	Hellaswag分数	MMLU分数	TruthfulQA分数	Winogrande分数	GSM8K分数	模型架构
KoRWKV-6B 📑	🟢	65.3	28.19	22.1	32.18	24.69	39.05	51.14	0.0	RwkvForCausalLM
code_gpt2 📑	🔶	1.2	28.19	23.29	30.99	25.03	40.6	49.25	0.0	GPT2LMHeadModel
TinyMistral-248M-Instruct 📑	💬	2.5	28.19	24.32	27.52	25.18	41.94	50.2	0.0	MistralForCausalLM
distilgpt2-HC3 📑	🔶	0.9	28.18	24.66	27.99	23.95	42.1	50.36	0.0	GPT2LMHeadModel
gpt2-dolly 📑	💬	1.2	28.18	21.76	30.77	24.66	42.22	49.57	0.08	GPT2LMHeadModel
smol_llama-81M-tied 📑	🟢	0.8	28.17	22.18	29.33	24.06	43.97	49.25	0.23	LlamaForCausalLM
math_gpt2_sft 📑	🔶	1.2	28.03	22.87	30.41	25.06	37.62	51.54	0.68	GPT2LMHeadModel
Med_GPT2 📑	🔶	1.2	28.02	23.38	30.99	24.0	38.95	49.72	1.06	GPT2LMHeadModel
LaMini-GPT-124M 📑	🔶	1.2	28.01	24.32	30.82	24.99	36.57	51.38	0.0	GPT2LMHeadModel
chat_gpt2 📑	🔶	0	27.99	23.04	30.76	24.39	39.81	49.96	0.0	GPT2LMHeadModel
tinylamma-20000 📑	🔶	11	27.95	23.81	32.45	25.37	34.87	51.22	0.0	LlamaForCausalLM
gpt3-finnish-small 📑	🟢	0	27.95	20.48	28.09	24.47	46.47	48.22	0.0	BloomModel
TinyMistral-6x248M-Instruct 📑	💬	10	27.89	22.44	27.02	24.13	43.16	50.59	0.0	MixtralForCausalLM
xuanxuan 📑	🔶	1.4	27.88	23.46	31.12	26.27	35.97	50.43	0.0	GPT2LMHeadModel
gpt2-alpaca 📑	🔶	1.4	27.86	22.87	31.14	26.26	36.22	50.67	0.0	GPT2LMHeadModel
dlite-v1-124m 📑	🔶	1.2	27.86	24.32	31.16	25.08	36.38	50.2	0.0	GPT2LMHeadModel
kogpt 📑	🔶	3.9	27.83	21.16	28.11	26.56	42.06	49.09	0.0	GPT2LMHeadModel
Cerebras-GPT-111M 📑	🟢	1.1	27.75	20.22	26.73	25.51	46.31	47.75	0.0	?
TinyMistral-248m 📑	🟢	2.5	27.73	22.87	28.02	23.15	42.52	49.8	0.0	Unknown
mGPT 📑	🟢	0	27.61	23.81	26.37	25.17	39.62	50.67	0.0	GPT2LMHeadModel
testmodel 📑	🔶	1.5	27.6	19.71	26.68	25.28	43.72	50.2	0.0	GPT2LMHeadModel
111m 📑	🔶	1.5	27.6	19.71	26.68	25.28	43.72	50.2	0.0	GPT2LMHeadModel
TinyMistral-248M-SFT-v3 📑	💬	2.5	27.45	21.93	28.26	22.91	40.03	51.54	0.0	Unknown
dolly-v2-3b 📑	🔶	30	22.83	25.26	26.55	24.7	0.0	59.43	1.06	GPTNeoXForCausalLM
v1olet_marcoroni-go-bruins-7B 📑	🔶	70	22.43	29.1	28.3	25.09	0.0	52.09	0.0	Unknown
v1olet_mistral_7B 📑	💬	70	22.16	29.18	28.13	26.24	0.0	49.41	0.0	Unknown
mistral-class-bio-tutor 📑	🔶	71.1	21.59	28.07	28.02	23.79	0.0	49.64	0.0	Unknown
llama-2-13b-rockwellautomation 📑	🔶	130.2	21.48	28.16	25.77	25.14	0.0	49.8	0.0	LlamaForCausalLM
bloom-560m-finetuned-fraud 📑	❓	5.6	21.37	26.96	28.87	24.03	0.0	48.38	0.0	BloomForCausalLM
alignment-handbook-zephyr-7b_ppostep_100 📑	🔶	72.4	21.3	29.27	25.87	23.76	0.0	48.93	0.0	MistralForCausalLM
YetAnother_Open-Llama-3B-LoRA-OpenOrca 📑	🔶	34.3	21.2	25.94	25.76	24.65	0.0	50.83	0.0	LlamaForCausalLM
Dante-2.8B 📑	❓	28	21.12	25.09	26.05	24.51	0.0	51.07	0.0	GPTNeoXForCausalLM
mptk-1b 📑	🟢	13.1	20.84	22.7	25.48	27.11	0.0	49.72	0.0	MptForCausalLM
mindy-7b 📑	🔶	72.4	20.52	23.63	25.82	24.15	0.0	49.49	0.0	Unknown
test 📑	🔶	107.3	20.45	23.04	25.23	23.28	0.0	51.14	0.0	LlamaForCausalLM
zen 📑	🔶	72.4	20.33	23.98	25.08	23.26	0.0	49.64	0.0	MistralForCausalLM
test_wanda_240109 📑	🔶	107.3	20.24	22.95	25.26	23.32	0.0	49.88	0.0	LlamaForCausalLM
Sakura-SOLAR-Instruct-DPO-v1 📑	💬	107.3	20.07	22.7	25.04	23.12	0.0	49.57	0.0	Unknown
speechless-mistral-six-in-one-7b-orth-1.0 📑	🔶	70	20.07	22.7	25.04	23.12	0.0	49.57	0.0	MistralForCausalLM
mpt-125m-c4 📑	🟢	1.2	20.07	22.7	25.04	23.12	0.0	49.57	0.0	MPTForCausalLM
stablelm_sft_dpo 📑	🔶	78.7	20.07	22.7	25.04	23.12	0.0	49.57	0.0	GPTNeoXForCausalLM
caigun-lora-model-33B 📑	🔶	182.5	20.07	22.7	25.04	23.12	0.0	49.57	0.0	LlamaForCausalLM
moe_scratch 📑	🔶	467	20.07	22.7	25.04	23.12	0.0	49.57	0.0	MixtralForCausalLM
mistral-moe-scratch 📑	🔶	467	20.07	22.7	25.04	23.12	0.0	49.57	0.0	Unknown
Panther_v1 📑	❓	0	20.07	22.7	25.04	23.12	0.0	49.57	0.0	LLaMAForCausalLM
Llama-2-ft-instruct-es 📑	🔶	0	20.07	22.7	25.04	23.12	0.0	49.57	0.0	LlamaForCausalLM
llama-2-13b-dolphin-peft 📑	🔶	130	20.07	22.7	25.04	23.12	0.0	49.57	0.0	Unknown
Pythia-31M-Chat-v1 📑	💬	0.3	19.92	22.7	25.6	23.24	0.0	47.99	0.0	GPTNeoXForCausalLM

注意：手机屏幕有限，仅展示平均分，所有内容建议电脑端访问。

模型名称：	KoRWKV-6B 📑 🟢
参数大小：	65.3
平均分：	28.19

模型名称：	code_gpt2 📑 🔶
参数大小：	1.2
平均分：	28.19

模型名称：	TinyMistral-248M-Instruct 📑 💬
参数大小：	2.5
平均分：	28.19

模型名称：	distilgpt2-HC3 📑 🔶
参数大小：	0.9
平均分：	28.18

模型名称：	gpt2-dolly 📑 💬
参数大小：	1.2
平均分：	28.18

模型名称：	smol_llama-81M-tied 📑 🟢
参数大小：	0.8
平均分：	28.17

模型名称：	math_gpt2_sft 📑 🔶
参数大小：	1.2
平均分：	28.03

模型名称：	Med_GPT2 📑 🔶
参数大小：	1.2
平均分：	28.02

模型名称：	LaMini-GPT-124M 📑 🔶
参数大小：	1.2
平均分：	28.01

模型名称：	chat_gpt2 📑 🔶
参数大小：	0
平均分：	27.99

模型名称：	tinylamma-20000 📑 🔶
参数大小：	11
平均分：	27.95

模型名称：	gpt3-finnish-small 📑 🟢
参数大小：	0
平均分：	27.95

模型名称：	TinyMistral-6x248M-Instruct 📑 💬
参数大小：	10
平均分：	27.89

模型名称：	xuanxuan 📑 🔶
参数大小：	1.4
平均分：	27.88

模型名称：	gpt2-alpaca 📑 🔶
参数大小：	1.4
平均分：	27.86

模型名称：	dlite-v1-124m 📑 🔶
参数大小：	1.2
平均分：	27.86

模型名称：	kogpt 📑 🔶
参数大小：	3.9
平均分：	27.83

模型名称：	Cerebras-GPT-111M 📑 🟢
参数大小：	1.1
平均分：	27.75

模型名称：	TinyMistral-248m 📑 🟢
参数大小：	2.5
平均分：	27.73

模型名称：	mGPT 📑 🟢
参数大小：	0
平均分：	27.61

模型名称：	testmodel 📑 🔶
参数大小：	1.5
平均分：	27.6

模型名称：	111m 📑 🔶
参数大小：	1.5
平均分：	27.6

模型名称：	TinyMistral-248M-SFT-v3 📑 💬
参数大小：	2.5
平均分：	27.45

模型名称：	dolly-v2-3b 📑 🔶
参数大小：	30
平均分：	22.83

模型名称：	v1olet_marcoroni-go-bruins-7B 📑 🔶
参数大小：	70
平均分：	22.43

模型名称：	v1olet_mistral_7B 📑 💬
参数大小：	70
平均分：	22.16

模型名称：	mistral-class-bio-tutor 📑 🔶
参数大小：	71.1
平均分：	21.59

模型名称：	llama-2-13b-rockwellautomation 📑 🔶
参数大小：	130.2
平均分：	21.48

模型名称：	bloom-560m-finetuned-fraud 📑 ❓
参数大小：	5.6
平均分：	21.37

模型名称：	alignment-handbook-zephyr-7b_ppostep_100 📑 🔶
参数大小：	72.4
平均分：	21.3

模型名称：	YetAnother_Open-Llama-3B-LoRA-OpenOrca 📑 🔶
参数大小：	34.3
平均分：	21.2

模型名称：	Dante-2.8B 📑 ❓
参数大小：	28
平均分：	21.12

模型名称：	mptk-1b 📑 🟢
参数大小：	13.1
平均分：	20.84

模型名称：	mindy-7b 📑 🔶
参数大小：	72.4
平均分：	20.52

模型名称：	test 📑 🔶
参数大小：	107.3
平均分：	20.45

模型名称：	zen 📑 🔶
参数大小：	72.4
平均分：	20.33

模型名称：	test_wanda_240109 📑 🔶
参数大小：	107.3
平均分：	20.24

模型名称：	Sakura-SOLAR-Instruct-DPO-v1 📑 💬
参数大小：	107.3
平均分：	20.07

模型名称：	speechless-mistral-six-in-one-7b-orth-1.0 📑 🔶
参数大小：	70
平均分：	20.07

模型名称：	mpt-125m-c4 📑 🟢
参数大小：	1.2
平均分：	20.07

模型名称：	stablelm_sft_dpo 📑 🔶
参数大小：	78.7
平均分：	20.07

模型名称：	caigun-lora-model-33B 📑 🔶
参数大小：	182.5
平均分：	20.07

模型名称：	moe_scratch 📑 🔶
参数大小：	467
平均分：	20.07

模型名称：	mistral-moe-scratch 📑 🔶
参数大小：	467
平均分：	20.07

模型名称：	Panther_v1 📑 ❓
参数大小：	0
平均分：	20.07

模型名称：	Llama-2-ft-instruct-es 📑 🔶
参数大小：	0
平均分：	20.07

模型名称：	llama-2-13b-dolphin-peft 📑 🔶
参数大小：	130
平均分：	20.07

模型名称：	Pythia-31M-Chat-v1 📑 💬
参数大小：	0.3
平均分：	19.92