OpenLLMLeaderboard之DataLearner备份

大模型评测得分排行榜Open LLM Leaderboard中国站

为了方便大家更便捷查询，DataLearnerAI发布了DataLearnerAI-GPT：目前已经支持基于OpenLLMLeaderboard数据回答任意大模型评测结果数据地址如下：

https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt

关于DataLearnerAI-GPT的详细介绍参考：https://www.datalearner.com/blog/1051699757266256

随着大量大型语言模型（LLMs）和聊天机器人每周都在发布，它们往往伴随着对性能的夸大宣称，要筛选出由开源社区所取得的真正进展以及哪个模型是当前的技术领先水平，可能会非常困难。

为此，HF推出了这个大模型开放评测追踪排行榜。📐 🤗 Open LLM Leaderboard 旨在追踪、排名和评估开源大型语言模型（LLMs）和聊天机器人在不同评测任务上的得分。

由于HuggingFace的访问稳定性和速度，我们提供了同步更新的结果。原网页请访问：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Open LLM Leaderboard排行榜的各个评测任务介绍

AI2 Reasoning Challenge (25-shot)

一套小学科学问题。
HellaSwag (10-shot)

对于人类而言简单（大约95%）的常识推理测试，但对于最新技术模型而言具有挑战性。
MMLU (5-shot)

测试文本模型的多任务准确性，涵盖57项任务，包括小学数学、美国历史、计算机科学、法律等。
TruthfulQA (0-shot)

测试模型复制网络上常见虚假信息的倾向。注意：工具中的 TruthfulQA 实际上至少是6次尝试的任务。
Winogrande (5-shot)

大规模的、具有对抗性的、困难的 Winograd 基准测试，用于常识推理。
GSM8k (5-shot)

多样化的小学数学文字问题，用于测试模型解决多步骤数学推理问题的能力。

下表中关于模型类型的图标解释如下：

🟢 : 预训练模型：这类模型是新的基础模型，它们是基于特定数据集进行预训练的。

🔶 ：领域特定微调模型：这些预训练模型经过了针对特定领域数据集的进一步微调，以获得更好的性能。

💬 ：聊天模型：包括使用任务指令数据集的IFT（指令式任务训练）、RLHF（强化学习从人类反馈）或DPO（通过增加策略稍微改变模型的损失）等方法进行的聊天式微调模型。

🤝 ：基础合并和Moerges模型：这类模型通过合并或MoErges（模型融合）技术集成了多个模型，但不需要额外的微调。如果您发现没有图标的模型，请随时提交问题，以补充模型信息。

❓：表示未知

你可以按照如下类型筛选不同类型的模型来排序：

全部模型

Pretrained Models

Fine Tuned Models

Chat Models

Merged or MoE Models

模型名称	模型类型	参数大小（亿）	平均分	ARC分数	Hellaswag分数	MMLU分数	TruthfulQA分数	Winogrande分数	GSM8K分数	模型架构
codegen-6B-nl 📑	🟢	60	40.0	42.32	68.59	25.93	34.47	66.46	2.2	CodeGenForCausalLM
Javalion-GPTJ 📑	🔶	0	39.97	41.89	68.69	26.85	35.44	65.27	1.67	GPTJForCausalLM
WizardLM-30B-GPTQ 📑	❓	355.8	39.9	28.84	26.08	24.62	49.14	76.32	34.42	LlamaForCausalLM
h2ogpt-gm-oasst1-en-1024-open-llama-7b-preview-400bt 📑	🔶	70	39.89	41.3	62.44	27.55	42.0	64.56	1.52	LlamaForCausalLM
Skegma-GPTJ 📑	🔶	0	39.87	43.77	69.22	25.37	34.67	64.64	1.52	GPTJForCausalLM
Pythia-Chat-Base-7B 📑	🔶	70	39.81	40.02	68.67	27.44	34.63	64.01	4.09	GPTNeoXForCausalLM
CodeLlama-7b-hf 📑	🟢	67.4	39.81	39.93	60.8	31.12	37.82	64.01	5.16	LlamaForCausalLM
open_llama_3b_glaive_assistant_v0.1 📑	🔶	34.3	39.74	40.7	67.45	27.74	35.86	64.72	1.97	Unknown
open_llama_3b_glaive_code_v0.1 📑	🔶	34.3	39.74	40.7	67.45	27.74	35.86	64.72	1.97	LlamaForCausalLM
open_llama_3b_glaive_v0.1 📑	🔶	34.3	39.74	40.7	67.45	27.74	35.86	64.72	1.97	Unknown
WizardVicuna-Uncensored-3B-0719 📑	🔶	34.3	39.73	41.38	66.19	26.53	39.35	63.77	1.14	LlamaForCausalLM
open_llama_3b_code_instruct_0.1 📑	💬	34.3	39.72	41.21	66.96	27.82	35.01	65.43	1.9	LlamaForCausalLM
pythia-12b-deduped 📑	🟢	120	39.7	41.38	70.26	25.63	33.0	66.46	1.44	GPTNeoXForCausalLM
GPT-J-Pyg_PPO-6B-Dev-V8p4 📑	🔶	60	39.61	40.19	66.43	30.39	34.76	64.01	1.9	GPTJForCausalLM
OPT-13B-Erebus 📑	🔶	130	39.61	40.02	70.07	25.32	34.93	66.54	0.76	OPTForCausalLM
OPT-13B-Nerybus-Mix 📑	🔶	130	39.61	39.85	70.6	24.9	34.02	67.88	0.38	OPTForCausalLM
GPT-J-6B-Shinen 📑	🔶	60	39.6	39.85	67.06	27.72	36.94	64.09	1.97	GPTJForCausalLM
GPT-J-Pyg_PPO-6B 📑	🔶	60	39.6	42.06	67.51	28.52	31.95	64.72	2.81	GPTJForCausalLM
speechless-nl2sql-ds-6.7b 📑	🔶	67.4	39.59	36.35	52.83	36.8	40.55	55.96	15.09	LlamaForCausalLM
GPT-J-6B-Janeway 📑	🔶	60	39.54	40.87	67.11	27.45	35.74	64.72	1.36	GPTJForCausalLM
LightGPT ✅ 📑	❓	0	39.54	39.93	63.82	28.45	36.69	64.48	3.87	GPTJForCausalLM
OPT-13B-Nerys-v2 📑	🔶	130	39.53	39.68	70.53	25.36	33.5	67.88	0.23	OPTForCausalLM
RedPajama-INCITE-Chat-3B-v1 📑	🔶	30	39.53	42.83	67.62	26.23	34.44	65.51	0.53	GPTNeoXForCausalLM
gpt-sw3-6.7b-v2 📑	🟢	71.1	39.49	39.42	66.39	30.09	35.6	64.25	1.21	GPT2LMHeadModel
WizardVicuna-3B-0719 📑	🔶	30	39.48	40.7	65.45	25.44	40.71	63.85	0.76	LlamaForCausalLM
dolly-v2-12b ✅ 📑	🔶	120	39.46	42.41	72.53	25.92	33.83	60.85	1.21	GPTNeoXForCausalLM
llama2-ppo 📑	🔶	67.4	39.44	41.64	49.46	35.36	45.08	64.96	0.15	Unknown
RedPajama-INCITE-Chat-3B-Instruction-Tuning-with-GPT-4 📑	🔶	29.1	39.38	41.64	66.23	27.26	36.1	64.4	0.68	GPTNeoXForCausalLM
RedPajama-INCITE-7B-Chat 📑	🔶	70	39.37	42.06	70.82	26.94	36.09	59.83	0.45	GPTNeoXForCausalLM
RedPajama-INCITE-Chat-7B-v0.1 📑	🔶	66.5	39.37	42.06	70.82	26.94	36.09	59.83	0.45	Unknown
pythia-6.9b-deduped 📑	🟢	69	39.3	41.3	67.05	26.48	35.19	64.09	1.67	GPTNeoXForCausalLM
LLmRA-3B-v0.1 📑	🔶	30	39.25	39.42	59.79	25.16	50.62	59.43	1.06	LlamaForCausalLM
dolly-v2-7b 📑	🔶	70	39.24	44.54	69.64	25.18	34.88	60.06	1.14	GPTNeoXForCausalLM
FLAMA-0.5-3B 📑	🔶	30	39.23	37.97	67.65	25.73	41.11	62.12	0.83	LlamaForCausalLM
RedPajama-INCITE-Chat-Instruct-3B-V1 📑	🔶	27.8	39.23	42.58	67.48	25.99	33.62	64.8	0.91	GPTNeoXForCausalLM
RedTulu-Uncensored-3B-0719 📑	🔶	30	39.19	40.02	62.55	30.37	37.59	62.35	2.27	GPTNeoXForCausalLM
bloom-7b1 📑	🟢	70.7	39.18	41.13	62.0	26.25	38.9	65.43	1.36	BloomForCausalLM
weblab-10b-instruction-sft 📑	💬	100	39.13	40.1	65.3	26.66	36.79	64.09	1.82	GPTNeoXForCausalLM
h2o-danube-1.8b-base 📑	🟢	18.3	39.12	39.42	69.58	25.94	33.86	64.48	1.44	MistralForCausalLM
robin-33B-v2-GPTQ 📑	❓	355.8	39.1	27.73	26.29	23.53	49.54	79.79	27.75	LlamaForCausalLM
OPT-6.7B-Erebus 📑	🔶	67	39.09	39.16	68.66	24.58	35.12	65.98	1.06	OPTForCausalLM
opt-6.7b 📑	🟢	67	39.08	39.16	68.66	24.57	35.12	65.98	0.99	OPTForCausalLM
RedPajama-INCITE-Instruct-3B-v1 ✅ 📑	🔶	30	39.06	41.55	65.48	25.03	36.41	64.48	1.36	GPTNeoXForCausalLM
deacon-3b 📑	💬	34.3	39.05	39.68	66.42	27.13	36.07	64.64	0.38	LlamaForCausalLM
ScarletPajama-3B-HF 📑	🔶	30	39.04	39.76	64.89	27.28	37.6	64.48	0.23	GPTNeoXForCausalLM
orca_mini_3b 📑	🔶	33.2	39.03	41.55	61.52	26.79	42.42	61.8	0.08	Unknown
black_goo_recipe_c 📑	💬	0	39.01	38.74	66.83	26.57	36.54	64.72	0.68	LlamaForCausalLM
Guanaco-3B-Uncensored-v2 📑	🔶	27.8	38.98	42.15	66.72	26.18	35.21	63.3	0.3	GPTNeoXForCausalLM
cross_lingual_epoch2 📑	💬	0	38.97	39.25	47.92	36.66	47.9	62.12	0.0	LlamaForCausalLM
open_llama_3b_instruct_v_0.2 📑	💬	34.3	38.97	38.48	66.77	25.34	38.16	63.46	1.59	LlamaForCausalLM
Guanaco-3B-Uncensored-v2-GPTQ 📑	🔶	47.8	38.95	41.64	64.76	26.25	36.58	64.33	0.15	GPTNeoXForCausalLM
Guanaco-3B-Uncensored 📑	🔶	27.8	38.94	42.49	66.99	25.55	34.71	63.38	0.53	GPTNeoXForCausalLM
mamba-gpt-3b 📑	🔶	34.3	38.87	40.53	64.94	25.35	37.14	65.04	0.23	LlamaForCausalLM
OPT-6.7B-Nerybus-Mix 📑	🔶	67	38.83	39.16	68.63	24.47	34.84	65.11	0.76	OPTForCausalLM
pythia-12b ✅ 📑	🟢	120	38.82	39.59	68.82	26.76	31.85	64.17	1.74	GPTNeoXForCausalLM
WizardVicuna-open-llama-3b-v2 📑	💬	34.3	38.77	37.71	66.6	27.23	36.8	63.3	0.99	LlamaForCausalLM
black_goo_recipe_a 📑	💬	0	38.73	38.14	66.56	25.75	37.46	63.93	0.53	LlamaForCausalLM
OPT-6B-nerys-v2 📑	🔶	60	38.72	38.4	68.57	24.34	34.73	65.59	0.68	OPTForCausalLM
instruct-12b 📑	🔶	120	38.63	42.58	66.76	26.79	31.96	63.46	0.23	GPTNeoXForCausalLM
h2ogpt-oig-oasst1-256-6_9b 📑	🔶	90	38.62	39.93	65.42	26.39	35.0	63.38	1.59	GPTNeoXForCausalLM
weblab-10b 📑	🟢	100	38.59	39.51	65.76	26.29	36.02	62.51	1.44	GPTNeoXForCausalLM
black_goo_recipe_d 📑	💬	0	38.57	37.8	66.5	26.64	36.46	63.61	0.38	LlamaForCausalLM
RedPajama-INCITE-Base-3B-v1 📑	🟢	30	38.54	40.19	64.77	27.03	33.23	64.72	1.29	GPTNeoXForCausalLM
OPT-30B-Erebus 📑	🔶	300	38.53	36.69	65.6	24.8	38.76	65.11	0.23	OPTForCausalLM
CrimsonPajama 📑	🔶	0	38.52	40.19	65.47	25.95	33.78	65.19	0.53	GPTNeoXForCausalLM
h2ogpt-oig-oasst1-512-6_9b 📑	🔶	90	38.52	40.44	65.58	24.9	36.68	62.51	0.99	GPTNeoXForCausalLM
guanaco-33B-GPTQ 📑	❓	355.8	38.51	28.16	26.34	24.94	48.98	78.85	23.81	LlamaForCausalLM
LLongMA-3b-LIMA 📑	💬	30	38.51	39.08	67.15	26.43	34.71	63.38	0.3	LlamaForCausalLM
pythia-6.9b-HC3 📑	❓	69	38.51	36.52	61.76	26.94	45.05	60.77	0.0	GPTNeoXForCausalLM
black_goo_recipe_b 📑	💬	0	38.49	37.63	66.72	25.68	37.09	63.77	0.08	LlamaForCausalLM
RedPajama-INCITE-Chat-3B-ShareGPT-11K 📑	🔶	30	38.47	40.61	64.84	26.13	35.41	63.54	0.3	GPTNeoXForCausalLM
pygmalion-6b 📑	🔶	60	38.47	40.53	67.47	25.73	32.53	62.51	2.05	GPTJForCausalLM
WizardLM-33B-V1.0-Uncensored-GPTQ 📑	🔶	355.8	38.43	27.39	26.03	25.81	48.9	77.9	24.56	LlamaForCausalLM
OmegLLaMA-3B 📑	🔶	34.3	38.28	40.36	66.13	28.0	33.31	61.64	0.23	LlamaForCausalLM
open_llama_3b 📑	🟢	30	38.26	39.85	62.65	26.94	34.97	64.72	0.45	LlamaForCausalLM
FLOR-6.3B-xat 📑	🔶	62.5	38.23	38.65	63.76	26.54	37.96	62.43	0.0	BloomForCausalLM
pythia-6.7b 📑	🟢	66.5	38.06	40.1	65.0	24.64	32.85	64.72	1.06	Unknown
Zro1.5_3B 📑	🔶	27.8	38.02	35.92	61.11	25.55	36.89	58.72	9.93	GPTNeoXForCausalLM
Tinyllama-Cinder-1.3B-Reason-Test 📑	🔶	12.8	37.88	34.56	58.24	25.79	39.93	63.93	4.85	LlamaForCausalLM
Galactica-6.7B-EssayWriter 📑	🔶	66.6	37.75	40.1	50.29	33.88	40.27	58.48	3.49	OPTForCausalLM
falcon-rw-1b-instruct-openorca 📑	💬	13.1	37.63	34.56	60.93	28.77	37.42	60.69	3.41	FalconForCausalLM
falcon_1b_stage2 📑	🔶	10	37.59	35.49	65.56	23.83	38.32	62.35	0.0	FalconForCausalLM
bloom-zh-3b-chat 📑	🔶	30	37.58	38.82	54.71	31.62	41.25	58.64	0.45	BloomForCausalLM
h2ogpt-gm-oasst1-en-2048-open-llama-7b-preview-300bt-v2 📑	🔶	70	37.55	36.43	61.41	25.01	37.59	64.64	0.23	LlamaForCausalLM
Evaloric-1.1B 📑	💬	11	37.54	35.07	60.93	25.36	37.78	64.96	1.14	LlamaForCausalLM
CodeLlama-13B-Python-fp16 📑	🔶	130.2	37.52	33.19	44.5	25.94	43.99	67.4	10.08	LlamaForCausalLM
Cerebras-GPT-13B ✅ 📑	🟢	130	37.4	38.14	60.01	25.92	39.19	59.83	1.29	GPT2Model
falcon-rw-1b-chat 📑	💬	13.1	37.37	35.58	61.12	24.51	39.62	61.72	1.67	FalconForCausalLM
StellarX-4B-V0 📑	🟢	40	37.31	36.95	61.9	26.85	34.3	63.85	0.0	GPTNeoXForCausalLM
manovyadh-1.1B-v1-chat 📑	🔶	11	37.3	35.92	60.03	25.82	39.17	61.09	1.74	LlamaForCausalLM
TinyLlama-1.1B-Chat-v1.0 📑	🔶	11	37.28	36.09	61.1	25.39	37.48	61.25	2.35	LlamaForCausalLM
WizardLM-30B-Uncensored-GPTQ 📑	❓	355.8	37.27	29.44	26.47	24.35	49.15	73.16	21.08	LlamaForCausalLM
RedPajama-INCITE-Chat-3B-v1-FT-LoRA-8bit-test1 📑	🔶	30	37.27	38.65	63.53	25.16	36.07	60.14	0.08	Unknown
galactica-6.7b-evol-instruct-70k 📑	❓	67	37.27	42.58	49.3	32.96	42.1	56.27	0.38	OPTForCausalLM
falcon_1b_stage1 📑	🔶	10	37.25	35.15	62.4	24.47	40.0	61.48	0.0	FalconForCausalLM
Tinyllama-Cinder-1.3B-Reason-Test.2 📑	🔶	12.8	37.25	32.76	58.27	24.39	39.0	65.04	4.02	LlamaForCausalLM
gpt-sw3-6.7b 📑	🟢	71.1	37.23	36.35	60.75	26.0	39.04	60.69	0.53	GPT2LMHeadModel
TinyLlama-3T-Cinder-v1.3 📑	🤝	11	37.23	33.96	58.14	25.41	38.13	63.93	3.79	LlamaForCausalLM
TinyLlama-1.1B-orca-v1.0 📑	💬	11	37.17	36.35	61.23	25.18	36.58	61.4	2.27	LlamaForCausalLM
TinyLlama-1.1B-Chat-v1.0 📑	🔶	11	37.17	35.92	61.11	25.0	37.38	61.17	2.43	LlamaForCausalLM

注意：手机屏幕有限，仅展示平均分，所有内容建议电脑端访问。

模型名称：	codegen-6B-nl 📑 🟢
参数大小：	60
平均分：	40.0

模型名称：	Javalion-GPTJ 📑 🔶
参数大小：	0
平均分：	39.97

模型名称：	WizardLM-30B-GPTQ 📑 ❓
参数大小：	355.8
平均分：	39.9

模型名称：	h2ogpt-gm-oasst1-en-1024-open-llama-7b-preview-400bt 📑 🔶
参数大小：	70
平均分：	39.89

模型名称：	Skegma-GPTJ 📑 🔶
参数大小：	0
平均分：	39.87

模型名称：	Pythia-Chat-Base-7B 📑 🔶
参数大小：	70
平均分：	39.81

模型名称：	CodeLlama-7b-hf 📑 🟢
参数大小：	67.4
平均分：	39.81

模型名称：	open_llama_3b_glaive_assistant_v0.1 📑 🔶
参数大小：	34.3
平均分：	39.74

模型名称：	open_llama_3b_glaive_code_v0.1 📑 🔶
参数大小：	34.3
平均分：	39.74

模型名称：	open_llama_3b_glaive_v0.1 📑 🔶
参数大小：	34.3
平均分：	39.74

模型名称：	WizardVicuna-Uncensored-3B-0719 📑 🔶
参数大小：	34.3
平均分：	39.73

模型名称：	open_llama_3b_code_instruct_0.1 📑 💬
参数大小：	34.3
平均分：	39.72

模型名称：	pythia-12b-deduped 📑 🟢
参数大小：	120
平均分：	39.7

模型名称：	GPT-J-Pyg_PPO-6B-Dev-V8p4 📑 🔶
参数大小：	60
平均分：	39.61

模型名称：	OPT-13B-Erebus 📑 🔶
参数大小：	130
平均分：	39.61

模型名称：	OPT-13B-Nerybus-Mix 📑 🔶
参数大小：	130
平均分：	39.61

模型名称：	GPT-J-6B-Shinen 📑 🔶
参数大小：	60
平均分：	39.6

模型名称：	GPT-J-Pyg_PPO-6B 📑 🔶
参数大小：	60
平均分：	39.6

模型名称：	speechless-nl2sql-ds-6.7b 📑 🔶
参数大小：	67.4
平均分：	39.59

模型名称：	GPT-J-6B-Janeway 📑 🔶
参数大小：	60
平均分：	39.54

模型名称：	LightGPT ✅ 📑 ❓
参数大小：	0
平均分：	39.54

模型名称：	OPT-13B-Nerys-v2 📑 🔶
参数大小：	130
平均分：	39.53

模型名称：	RedPajama-INCITE-Chat-3B-v1 📑 🔶
参数大小：	30
平均分：	39.53

模型名称：	gpt-sw3-6.7b-v2 📑 🟢
参数大小：	71.1
平均分：	39.49

模型名称：	WizardVicuna-3B-0719 📑 🔶
参数大小：	30
平均分：	39.48

模型名称：	dolly-v2-12b ✅ 📑 🔶
参数大小：	120
平均分：	39.46

模型名称：	llama2-ppo 📑 🔶
参数大小：	67.4
平均分：	39.44

模型名称：	RedPajama-INCITE-Chat-3B-Instruction-Tuning-with-GPT-4 📑 🔶
参数大小：	29.1
平均分：	39.38

模型名称：	RedPajama-INCITE-7B-Chat 📑 🔶
参数大小：	70
平均分：	39.37

模型名称：	RedPajama-INCITE-Chat-7B-v0.1 📑 🔶
参数大小：	66.5
平均分：	39.37

模型名称：	pythia-6.9b-deduped 📑 🟢
参数大小：	69
平均分：	39.3

模型名称：	LLmRA-3B-v0.1 📑 🔶
参数大小：	30
平均分：	39.25

模型名称：	dolly-v2-7b 📑 🔶
参数大小：	70
平均分：	39.24

模型名称：	FLAMA-0.5-3B 📑 🔶
参数大小：	30
平均分：	39.23

模型名称：	RedPajama-INCITE-Chat-Instruct-3B-V1 📑 🔶
参数大小：	27.8
平均分：	39.23

模型名称：	RedTulu-Uncensored-3B-0719 📑 🔶
参数大小：	30
平均分：	39.19

模型名称：	bloom-7b1 📑 🟢
参数大小：	70.7
平均分：	39.18

模型名称：	weblab-10b-instruction-sft 📑 💬
参数大小：	100
平均分：	39.13

模型名称：	h2o-danube-1.8b-base 📑 🟢
参数大小：	18.3
平均分：	39.12

模型名称：	robin-33B-v2-GPTQ 📑 ❓
参数大小：	355.8
平均分：	39.1

模型名称：	OPT-6.7B-Erebus 📑 🔶
参数大小：	67
平均分：	39.09

模型名称：	opt-6.7b 📑 🟢
参数大小：	67
平均分：	39.08

模型名称：	RedPajama-INCITE-Instruct-3B-v1 ✅ 📑 🔶
参数大小：	30
平均分：	39.06

模型名称：	deacon-3b 📑 💬
参数大小：	34.3
平均分：	39.05

模型名称：	ScarletPajama-3B-HF 📑 🔶
参数大小：	30
平均分：	39.04

模型名称：	orca_mini_3b 📑 🔶
参数大小：	33.2
平均分：	39.03

模型名称：	black_goo_recipe_c 📑 💬
参数大小：	0
平均分：	39.01

模型名称：	Guanaco-3B-Uncensored-v2 📑 🔶
参数大小：	27.8
平均分：	38.98

模型名称：	cross_lingual_epoch2 📑 💬
参数大小：	0
平均分：	38.97

模型名称：	open_llama_3b_instruct_v_0.2 📑 💬
参数大小：	34.3
平均分：	38.97

模型名称：	Guanaco-3B-Uncensored-v2-GPTQ 📑 🔶
参数大小：	47.8
平均分：	38.95

模型名称：	Guanaco-3B-Uncensored 📑 🔶
参数大小：	27.8
平均分：	38.94

模型名称：	mamba-gpt-3b 📑 🔶
参数大小：	34.3
平均分：	38.87

模型名称：	OPT-6.7B-Nerybus-Mix 📑 🔶
参数大小：	67
平均分：	38.83

模型名称：	pythia-12b ✅ 📑 🟢
参数大小：	120
平均分：	38.82

模型名称：	WizardVicuna-open-llama-3b-v2 📑 💬
参数大小：	34.3
平均分：	38.77

模型名称：	black_goo_recipe_a 📑 💬
参数大小：	0
平均分：	38.73

模型名称：	OPT-6B-nerys-v2 📑 🔶
参数大小：	60
平均分：	38.72

模型名称：	instruct-12b 📑 🔶
参数大小：	120
平均分：	38.63

模型名称：	h2ogpt-oig-oasst1-256-6_9b 📑 🔶
参数大小：	90
平均分：	38.62

模型名称：	weblab-10b 📑 🟢
参数大小：	100
平均分：	38.59

模型名称：	black_goo_recipe_d 📑 💬
参数大小：	0
平均分：	38.57

模型名称：	RedPajama-INCITE-Base-3B-v1 📑 🟢
参数大小：	30
平均分：	38.54

模型名称：	OPT-30B-Erebus 📑 🔶
参数大小：	300
平均分：	38.53

模型名称：	CrimsonPajama 📑 🔶
参数大小：	0
平均分：	38.52

模型名称：	h2ogpt-oig-oasst1-512-6_9b 📑 🔶
参数大小：	90
平均分：	38.52

模型名称：	guanaco-33B-GPTQ 📑 ❓
参数大小：	355.8
平均分：	38.51

模型名称：	LLongMA-3b-LIMA 📑 💬
参数大小：	30
平均分：	38.51

模型名称：	pythia-6.9b-HC3 📑 ❓
参数大小：	69
平均分：	38.51

模型名称：	black_goo_recipe_b 📑 💬
参数大小：	0
平均分：	38.49

模型名称：	RedPajama-INCITE-Chat-3B-ShareGPT-11K 📑 🔶
参数大小：	30
平均分：	38.47

模型名称：	pygmalion-6b 📑 🔶
参数大小：	60
平均分：	38.47

模型名称：	WizardLM-33B-V1.0-Uncensored-GPTQ 📑 🔶
参数大小：	355.8
平均分：	38.43

模型名称：	OmegLLaMA-3B 📑 🔶
参数大小：	34.3
平均分：	38.28

模型名称：	open_llama_3b 📑 🟢
参数大小：	30
平均分：	38.26

模型名称：	FLOR-6.3B-xat 📑 🔶
参数大小：	62.5
平均分：	38.23

模型名称：	pythia-6.7b 📑 🟢
参数大小：	66.5
平均分：	38.06

模型名称：	Zro1.5_3B 📑 🔶
参数大小：	27.8
平均分：	38.02

模型名称：	Tinyllama-Cinder-1.3B-Reason-Test 📑 🔶
参数大小：	12.8
平均分：	37.88

模型名称：	Galactica-6.7B-EssayWriter 📑 🔶
参数大小：	66.6
平均分：	37.75

模型名称：	falcon-rw-1b-instruct-openorca 📑 💬
参数大小：	13.1
平均分：	37.63

模型名称：	falcon_1b_stage2 📑 🔶
参数大小：	10
平均分：	37.59

模型名称：	bloom-zh-3b-chat 📑 🔶
参数大小：	30
平均分：	37.58

模型名称：	h2ogpt-gm-oasst1-en-2048-open-llama-7b-preview-300bt-v2 📑 🔶
参数大小：	70
平均分：	37.55

模型名称：	Evaloric-1.1B 📑 💬
参数大小：	11
平均分：	37.54

模型名称：	CodeLlama-13B-Python-fp16 📑 🔶
参数大小：	130.2
平均分：	37.52

模型名称：	Cerebras-GPT-13B ✅ 📑 🟢
参数大小：	130
平均分：	37.4

模型名称：	falcon-rw-1b-chat 📑 💬
参数大小：	13.1
平均分：	37.37

模型名称：	StellarX-4B-V0 📑 🟢
参数大小：	40
平均分：	37.31

模型名称：	manovyadh-1.1B-v1-chat 📑 🔶
参数大小：	11
平均分：	37.3

模型名称：	TinyLlama-1.1B-Chat-v1.0 📑 🔶
参数大小：	11
平均分：	37.28

模型名称：	WizardLM-30B-Uncensored-GPTQ 📑 ❓
参数大小：	355.8
平均分：	37.27

模型名称：	RedPajama-INCITE-Chat-3B-v1-FT-LoRA-8bit-test1 📑 🔶
参数大小：	30
平均分：	37.27

模型名称：	galactica-6.7b-evol-instruct-70k 📑 ❓
参数大小：	67
平均分：	37.27

模型名称：	falcon_1b_stage1 📑 🔶
参数大小：	10
平均分：	37.25

模型名称：	Tinyllama-Cinder-1.3B-Reason-Test.2 📑 🔶
参数大小：	12.8
平均分：	37.25

模型名称：	gpt-sw3-6.7b 📑 🟢
参数大小：	71.1
平均分：	37.23

模型名称：	TinyLlama-3T-Cinder-v1.3 📑 🤝
参数大小：	11
平均分：	37.23

模型名称：	TinyLlama-1.1B-orca-v1.0 📑 💬
参数大小：	11
平均分：	37.17

模型名称：	TinyLlama-1.1B-Chat-v1.0 📑 🔶
参数大小：	11
平均分：	37.17