Ra

Raven 14B

聊天大模型

Raven 14B

发布时间: 2022-10-20

模型参数(Parameters)
140.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

聊天大模型

发布时间

2022-10-20

模型预文件大小

28.3GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Raven 14B模型在各大评测榜单的评分

发布机构

模型介绍

Raven 14B是一个可并行训练的RNN预训练大模型,其基础模型名称为RWKV,名称来源于模型的4个参数。


RWKV模型是一个有着Transformer水平的大语言模型,但是它是一个RNN架构。不需要注意力层。


尽管transformer模型是当今大模型的主要架构,然而,注意力机制的处理能力随着要处理的序列长度呈二次增长。这有效地限制了模型的输入大小(或“上下文长度”)。此外,由于注意力机制,在生成文本时,我们需要将所有先前标记的注意力向量保存在内存中。这比仅存储单个状态的RNN需要更多的内存。


为此,香港大学物理系毕业的彭博提出了RWKV模型,RWKV将RNN和Transformer的最佳特性结合在一起。在训练期间,我们使用变换器类型的架构公式,这允许大规模并行化(带有一种随标记数量呈线性增长的注意力)。在推断期间,我们使用等效的公式,它的工作方式类似于带有状态的RNN。这使我们可以兼顾两者的优点。


因此,我们基本上拥有一个像变压器一样训练的模型,只不过长的上下文长度不会花费太多代价。在推断期间,我们需要的内存少得多,并且可以隐式地处理“无限”上下文长度(尽管在实践中,模型可能难以推广到比训练期间看到的更长的上下文长度)。


Raven 14B是一种RWKV架构的预训练大模型,基于Pile数据训练。其中,它的层数为40层,维度是5120维。其中,Raven系列模型是基于Alpaca、CodeAlpaca、Guanaco、GPT4All、ShareGPT等模型微调的RWKV架构的模型。


Raven 14B模型在LM-Sys的匿名测评中获得了第六名的成绩,仅次于Koala-13B,好于Oasst-Pythia-12B(2023年5月第二周结果)。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat