Note:上图是Echarts的交互版本,建议PC端浏览,下方是截图结果。
此外,为了更加清晰地对比不同的国产开源大模型的水平能力,DataLearnerAI还收集了国产开源大模型公布的在公开评测结果中的对比。 虽然各大模型有自己的统计结果,但是不同模型公布的评测内容不同,即便是业界认可度比较高的MMLUL、GSM8K等评测,也不是所有模型都会公布。有时候,因为各种原因,各家模型公布的对比也并不完全。 另外,虽然HuggingFace的Open LLM Leaderboard也有类似的结果,但是包含的主要是HF上提交的模型结果,不会主动收集国产模型自己公布的数据。为此,我们建立了这样的对比页面。 这两个评测收集统计的主要目的就是方便大家在一个地方对比不同模型在不同评测中的结果,方便大家对比。
评测统计地址参考如下: