Aq

Aquila2-70B-Expr

基础大模型

Aquila2-70B-Expr

发布时间: 2023-11-30

模型参数(Parameters)
700.0
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-11-30

模型预文件大小

140GB

开源和体验地址

代码开源状态
预训练权重开源
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Aquila2-70B-Expr模型在各大评测榜单的评分

发布机构

北京智源人工智能研究院
北京智源人工智能研究院
查看发布机构详情

模型介绍

这是北京智源人工智能研究院开源的最新的700亿参数规模的大语言模型,是悟道·天鹰系列参数规模最大的模型。Aquila2-70B-Expr模型的Expr代表的是Experimental,表明这是一个实验性质的模型。而根据官方的介绍,这个模型的实验的主要是验证异构芯片上模型训练的性能和效果


Aquila2-70B-Expr模型在1.2万亿tokens数据集上预训练得到,该模型在不同任务的评测结果如下:


评测基准Aquila2-70B-ExprLlama2-70BAquila2-34B v1.2
C-Eval (test)66.859.3
CLUE74.7967.9279.2
Gaokao2023 v2.058.0644.8653.92
C-SEM v1.076.1467.285.15
MMLU61.9269.5473.74


可以看到,这个模型本身的评测结果一般,甚至不如Aquila2-34B v1.2版本,原因官方解释是训练数据较少。而且它的预训练数据集中,英文数据量只有Llama2-70B的三分之一左右。但是,官方在实验中:

对Aquila2-70B-Expr进行以MMLU训练集进行增广的数据进行了一小段持续训练,Aquila2-70B-Expr能迅速在MMLU的总体评测上提升至80.7分

官方认为这意味着作为基座模型,Aquila2-70B-Expr模型非常优秀,可以在后续的使用中提供一个泛化能力强、学习能力强基座模型。所以,直接在当前状态进行了开源。


另外,官方重点提到,这个模型是做异构训练实验验证的产物。在使用A100+A800异构英伟达GPU芯片集群、天数智能的天数BI-V100+BI-V150的异构集群上都做了训练对比,结果证明异构芯片的训练结果与纯粹的A100上或者是纯粹的天数BI-V100上训练效果差不多。


这也是这个模型生产过程中的一个重要共享,在异构硬件上训练的问题需要解决:

  • 不同架构设备的软硬件栈不兼容,数值精度也可能存在差异;
  • 不同架构设备之间很难高效通信;
  • 不同设备算力和内存不同,很难进行负载均衡切分。

BAAI此次开源的Aquila2-70B-Expr其实就是FlagScale框架的新特性测试结果。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat