大模型评测得分排行榜Open LLM Leaderboard中国站

为了方便大家更便捷查询,DataLearnerAI发布了DataLearnerAI-GPT:目前已经支持基于OpenLLMLeaderboard数据回答任意大模型评测结果数据地址如下:
https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt
关于DataLearnerAI-GPT的详细介绍参考:https://www.datalearner.com/blog/1051699757266256
随着大量大型语言模型(LLMs)和聊天机器人每周都在发布,它们往往伴随着对性能的夸大宣称,要筛选出由开源社区所取得的真正进展以及哪个模型是当前的技术领先水平,可能会非常困难。
为此,HF推出了这个大模型开放评测追踪排行榜。📐 🤗 Open LLM Leaderboard 旨在追踪、排名和评估开源大型语言模型(LLMs)和聊天机器人在不同评测任务上的得分。
由于HuggingFace的访问稳定性和速度,我们提供了同步更新的结果。原网页请访问:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Open LLM Leaderboard排行榜的各个评测任务介绍

下表中关于模型类型的图标解释如下:

🟢 : 预训练模型:这类模型是新的基础模型,它们是基于特定数据集进行预训练的。

🔶 :领域特定微调模型:这些预训练模型经过了针对特定领域数据集的进一步微调,以获得更好的性能。

💬 : 聊天模型:包括使用任务指令数据集的IFT(指令式任务训练)、RLHF(强化学习从人类反馈)或DPO(通过增加策略稍微改变模型的损失)等方法进行的聊天式微调模型。

🤝 :基础合并和Moerges模型:这类模型通过合并或MoErges(模型融合)技术集成了多个模型,但不需要额外的微调。如果您发现没有图标的模型,请随时提交问题,以补充模型信息。

❓:表示未知

你可以按照如下类型筛选不同类型的模型来排序:
模型名称 模型类型 参数大小(亿) 平均分 ARC分数 Hellaswag分数 MMLU分数 TruthfulQA分数 Winogrande分数 GSM8K分数 模型架构
KoRWKV-6B 📑 🟢

65.3

28.19

22.1

32.18

24.69

39.05

51.14

0.0

RwkvForCausalLM

code_gpt2 📑 🔶

1.2

28.19

23.29

30.99

25.03

40.6

49.25

0.0

GPT2LMHeadModel

TinyMistral-248M-Instruct 📑 💬

2.5

28.19

24.32

27.52

25.18

41.94

50.2

0.0

MistralForCausalLM

distilgpt2-HC3 📑 🔶

0.9

28.18

24.66

27.99

23.95

42.1

50.36

0.0

GPT2LMHeadModel

gpt2-dolly 📑 💬

1.2

28.18

21.76

30.77

24.66

42.22

49.57

0.08

GPT2LMHeadModel

smol_llama-81M-tied 📑 🟢

0.8

28.17

22.18

29.33

24.06

43.97

49.25

0.23

LlamaForCausalLM

math_gpt2_sft 📑 🔶

1.2

28.03

22.87

30.41

25.06

37.62

51.54

0.68

GPT2LMHeadModel

Med_GPT2 📑 🔶

1.2

28.02

23.38

30.99

24.0

38.95

49.72

1.06

GPT2LMHeadModel

LaMini-GPT-124M 📑 🔶

1.2

28.01

24.32

30.82

24.99

36.57

51.38

0.0

GPT2LMHeadModel

chat_gpt2 📑 🔶

0

27.99

23.04

30.76

24.39

39.81

49.96

0.0

GPT2LMHeadModel

tinylamma-20000 📑 🔶

11

27.95

23.81

32.45

25.37

34.87

51.22

0.0

LlamaForCausalLM

gpt3-finnish-small 📑 🟢

0

27.95

20.48

28.09

24.47

46.47

48.22

0.0

BloomModel

TinyMistral-6x248M-Instruct 📑 💬

10

27.89

22.44

27.02

24.13

43.16

50.59

0.0

MixtralForCausalLM

xuanxuan 📑 🔶

1.4

27.88

23.46

31.12

26.27

35.97

50.43

0.0

GPT2LMHeadModel

gpt2-alpaca 📑 🔶

1.4

27.86

22.87

31.14

26.26

36.22

50.67

0.0

GPT2LMHeadModel

dlite-v1-124m 📑 🔶

1.2

27.86

24.32

31.16

25.08

36.38

50.2

0.0

GPT2LMHeadModel

kogpt 📑 🔶

3.9

27.83

21.16

28.11

26.56

42.06

49.09

0.0

GPT2LMHeadModel

Cerebras-GPT-111M 📑 🟢

1.1

27.75

20.22

26.73

25.51

46.31

47.75

0.0

?

TinyMistral-248m 📑 🟢

2.5

27.73

22.87

28.02

23.15

42.52

49.8

0.0

Unknown

mGPT 📑 🟢

0

27.61

23.81

26.37

25.17

39.62

50.67

0.0

GPT2LMHeadModel

testmodel 📑 🔶

1.5

27.6

19.71

26.68

25.28

43.72

50.2

0.0

GPT2LMHeadModel

111m 📑 🔶

1.5

27.6

19.71

26.68

25.28

43.72

50.2

0.0

GPT2LMHeadModel

TinyMistral-248M-SFT-v3 📑 💬

2.5

27.45

21.93

28.26

22.91

40.03

51.54

0.0

Unknown

dolly-v2-3b 📑 🔶

30

22.83

25.26

26.55

24.7

0.0

59.43

1.06

GPTNeoXForCausalLM

v1olet_marcoroni-go-bruins-7B 📑 🔶

70

22.43

29.1

28.3

25.09

0.0

52.09

0.0

Unknown

v1olet_mistral_7B 📑 💬

70

22.16

29.18

28.13

26.24

0.0

49.41

0.0

Unknown

mistral-class-bio-tutor 📑 🔶

71.1

21.59

28.07

28.02

23.79

0.0

49.64

0.0

Unknown

llama-2-13b-rockwellautomation 📑 🔶

130.2

21.48

28.16

25.77

25.14

0.0

49.8

0.0

LlamaForCausalLM

bloom-560m-finetuned-fraud 📑

5.6

21.37

26.96

28.87

24.03

0.0

48.38

0.0

BloomForCausalLM

alignment-handbook-zephyr-7b_ppostep_100 📑 🔶

72.4

21.3

29.27

25.87

23.76

0.0

48.93

0.0

MistralForCausalLM

YetAnother_Open-Llama-3B-LoRA-OpenOrca 📑 🔶

34.3

21.2

25.94

25.76

24.65

0.0

50.83

0.0

LlamaForCausalLM

Dante-2.8B 📑

28

21.12

25.09

26.05

24.51

0.0

51.07

0.0

GPTNeoXForCausalLM

mptk-1b 📑 🟢

13.1

20.84

22.7

25.48

27.11

0.0

49.72

0.0

MptForCausalLM

mindy-7b 📑 🔶

72.4

20.52

23.63

25.82

24.15

0.0

49.49

0.0

Unknown

test 📑 🔶

107.3

20.45

23.04

25.23

23.28

0.0

51.14

0.0

LlamaForCausalLM

zen 📑 🔶

72.4

20.33

23.98

25.08

23.26

0.0

49.64

0.0

MistralForCausalLM

test_wanda_240109 📑 🔶

107.3

20.24

22.95

25.26

23.32

0.0

49.88

0.0

LlamaForCausalLM

Sakura-SOLAR-Instruct-DPO-v1 📑 💬

107.3

20.07

22.7

25.04

23.12

0.0

49.57

0.0

Unknown

speechless-mistral-six-in-one-7b-orth-1.0 📑 🔶

70

20.07

22.7

25.04

23.12

0.0

49.57

0.0

MistralForCausalLM

mpt-125m-c4 📑 🟢

1.2

20.07

22.7

25.04

23.12

0.0

49.57

0.0

MPTForCausalLM

stablelm_sft_dpo 📑 🔶

78.7

20.07

22.7

25.04

23.12

0.0

49.57

0.0

GPTNeoXForCausalLM

caigun-lora-model-33B 📑 🔶

182.5

20.07

22.7

25.04

23.12

0.0

49.57

0.0

LlamaForCausalLM

moe_scratch 📑 🔶

467

20.07

22.7

25.04

23.12

0.0

49.57

0.0

MixtralForCausalLM

mistral-moe-scratch 📑 🔶

467

20.07

22.7

25.04

23.12

0.0

49.57

0.0

Unknown

Panther_v1 📑

0

20.07

22.7

25.04

23.12

0.0

49.57

0.0

LLaMAForCausalLM

Llama-2-ft-instruct-es 📑 🔶

0

20.07

22.7

25.04

23.12

0.0

49.57

0.0

LlamaForCausalLM

llama-2-13b-dolphin-peft 📑 🔶

130

20.07

22.7

25.04

23.12

0.0

49.57

0.0

Unknown

Pythia-31M-Chat-v1 📑 💬

0.3

19.92

22.7

25.6

23.24

0.0

47.99

0.0

GPTNeoXForCausalLM

注意:手机屏幕有限,仅展示平均分,所有内容建议电脑端访问。

模型名称: KoRWKV-6B 📑 🟢
参数大小:

65.3

平均分:

28.19

模型名称: code_gpt2 📑 🔶
参数大小:

1.2

平均分:

28.19

模型名称: TinyMistral-248M-Instruct 📑 💬
参数大小:

2.5

平均分:

28.19

模型名称: distilgpt2-HC3 📑 🔶
参数大小:

0.9

平均分:

28.18

模型名称: gpt2-dolly 📑 💬
参数大小:

1.2

平均分:

28.18

模型名称: smol_llama-81M-tied 📑 🟢
参数大小:

0.8

平均分:

28.17

模型名称: math_gpt2_sft 📑 🔶
参数大小:

1.2

平均分:

28.03

模型名称: Med_GPT2 📑 🔶
参数大小:

1.2

平均分:

28.02

模型名称: LaMini-GPT-124M 📑 🔶
参数大小:

1.2

平均分:

28.01

模型名称: chat_gpt2 📑 🔶
参数大小:

0

平均分:

27.99

模型名称: tinylamma-20000 📑 🔶
参数大小:

11

平均分:

27.95

模型名称: gpt3-finnish-small 📑 🟢
参数大小:

0

平均分:

27.95

模型名称: TinyMistral-6x248M-Instruct 📑 💬
参数大小:

10

平均分:

27.89

模型名称: xuanxuan 📑 🔶
参数大小:

1.4

平均分:

27.88

模型名称: gpt2-alpaca 📑 🔶
参数大小:

1.4

平均分:

27.86

模型名称: dlite-v1-124m 📑 🔶
参数大小:

1.2

平均分:

27.86

模型名称: kogpt 📑 🔶
参数大小:

3.9

平均分:

27.83

模型名称: Cerebras-GPT-111M 📑 🟢
参数大小:

1.1

平均分:

27.75

模型名称: TinyMistral-248m 📑 🟢
参数大小:

2.5

平均分:

27.73

模型名称: mGPT 📑 🟢
参数大小:

0

平均分:

27.61

模型名称: testmodel 📑 🔶
参数大小:

1.5

平均分:

27.6

模型名称: 111m 📑 🔶
参数大小:

1.5

平均分:

27.6

模型名称: TinyMistral-248M-SFT-v3 📑 💬
参数大小:

2.5

平均分:

27.45

模型名称: dolly-v2-3b 📑 🔶
参数大小:

30

平均分:

22.83

模型名称: v1olet_marcoroni-go-bruins-7B 📑 🔶
参数大小:

70

平均分:

22.43

模型名称: v1olet_mistral_7B 📑 💬
参数大小:

70

平均分:

22.16

模型名称: mistral-class-bio-tutor 📑 🔶
参数大小:

71.1

平均分:

21.59

模型名称: llama-2-13b-rockwellautomation 📑 🔶
参数大小:

130.2

平均分:

21.48

模型名称: bloom-560m-finetuned-fraud 📑
参数大小:

5.6

平均分:

21.37

模型名称: alignment-handbook-zephyr-7b_ppostep_100 📑 🔶
参数大小:

72.4

平均分:

21.3

模型名称: YetAnother_Open-Llama-3B-LoRA-OpenOrca 📑 🔶
参数大小:

34.3

平均分:

21.2

模型名称: Dante-2.8B 📑
参数大小:

28

平均分:

21.12

模型名称: mptk-1b 📑 🟢
参数大小:

13.1

平均分:

20.84

模型名称: mindy-7b 📑 🔶
参数大小:

72.4

平均分:

20.52

模型名称: test 📑 🔶
参数大小:

107.3

平均分:

20.45

模型名称: zen 📑 🔶
参数大小:

72.4

平均分:

20.33

模型名称: test_wanda_240109 📑 🔶
参数大小:

107.3

平均分:

20.24

模型名称: Sakura-SOLAR-Instruct-DPO-v1 📑 💬
参数大小:

107.3

平均分:

20.07

模型名称: speechless-mistral-six-in-one-7b-orth-1.0 📑 🔶
参数大小:

70

平均分:

20.07

模型名称: mpt-125m-c4 📑 🟢
参数大小:

1.2

平均分:

20.07

模型名称: stablelm_sft_dpo 📑 🔶
参数大小:

78.7

平均分:

20.07

模型名称: caigun-lora-model-33B 📑 🔶
参数大小:

182.5

平均分:

20.07

模型名称: moe_scratch 📑 🔶
参数大小:

467

平均分:

20.07

模型名称: mistral-moe-scratch 📑 🔶
参数大小:

467

平均分:

20.07

模型名称: Panther_v1 📑
参数大小:

0

平均分:

20.07

模型名称: Llama-2-ft-instruct-es 📑 🔶
参数大小:

0

平均分:

20.07

模型名称: llama-2-13b-dolphin-peft 📑 🔶
参数大小:

130

平均分:

20.07

模型名称: Pythia-31M-Chat-v1 📑 💬
参数大小:

0.3

平均分:

19.92