模型详细情况和参数
Orion-14B-Base是猎豹移动投资的企业猎户星座开源的一个大语言模型。该模型主要特点如下:
基于2.5万亿tokens数据集预训练得到;
在200亿参数规模的大模型中表现优异;
支持多语言,包括中文、英文、韩文和日语;
在200K上下文下表现很好,最高支持320K上下文输入长度;
量化版本模型大小减少70%,推理速度提升30%,但是性能损失不到1%;
官方公布了Orion-14B模型的评测结果,非常优秀:
Model | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
---|---|---|---|---|---|---|
LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
Skywork-13B | 59.1 | 61.4 | 62.7 | 43.6 | 56.1 | 48.3 |
Baichuan2-13B | 59.0 | 61.3 | 59.5 | 37.4 | 45.6 | 49.0 |
QWEN-14B | 71.7 | 70.2 | 67.9 | 51.9 | 62.5 | 53.7 |
InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
Orion-14B-Base | 72.9 | 70.6 | 69.9 | 54.7 | 62.1 | 56.5 |
按照这个MMLU得分69.9估计的话,与GPT-3.5和Mistral-7B-MoE接近。Mixtral-8×7B-MoE是专家混合模型,参考: https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE
应该说这个分数很优异了。
更重要的是,Orion-14B模型在多语言上表现也很好:
Model | Train Lang | Japanese | Korean | Chinese | English |
---|---|---|---|---|---|
PLaMo-13B | En,Jp | 52.3 | * | * | * |
Weblab-10B | En,Jp | 50.7 | * | * | * |
ELYZA-jp-7B | En,Jp | 48.8 | * | * | * |
StableLM-jp-7B | En,Jp | 51.1 | * | * | * |
KoGPT-6B | En,Ko | * | 70.1 | * | * |
Polyglot-ko-13B | En,Ko | * | 70.7 | * | * |
Baichuan2-13B | Multi | 57.1 | 58.7 | 50.8 | 57.1 |
Qwen-14B | Multi | 65.8 | 73.7 | 64.5 | 65.4 |
Llama2-13B | Multi | 46.3 | 63.7 | 41.4 | 55.3 |
Yi-34B | Multi | 67.1 | 72.2 | 58.7 | 68.8 |
Orion-14B-Chat | Multi | 69.1 | 79.5 | 67.9 | 67.3 |
从这个对比看,汉语和日语表现不输中文
Orion-14B官方共发布了7个版本:
Orion-14B模型版本 | 模型简介 | HuggingFace下载链接 |
---|---|---|
⚾Orion-14B-Base | 140亿参数的基座版本 | Orion-14B-Base |
😛Orion-14B-Chat | 在基座版本上针对对话进行调优的版本,适合对话 | Orion-14B-Chat |
📃Orion-14B-LongChat | 长上下文优化的对话版本 | Orion-14B-LongChat |
🔎Orion-14B-Chat-RAG | 针对检索生成优化的版本 | Orion-14B-Chat-RAG |
🔌Orion-14B-Chat-Plugin | 针对插件优化的版本 | Orion-14B-Chat-Plugin |
💼Orion-14B-Base-Int4 | 基座模型的Int4量化版本 | Orion-14B-Base-Int4 |
📦Orion-14B-Chat-Int4 | 聊天对齐模型的Int4量化版本 | Orion-14B-Chat-Int4 |
Orion-14B模型的代码均是Apache2.0开源协议,完全免费商用,预训练结果可以免费商用,但是需要取得书面授权需求可。