Raven 14B是一个可并行训练的RNN预训练大模型，其基础模型名称为RWKV，名称来源于模型的4个参数。

RWKV模型是一个有着Transformer水平的大语言模型，但是它是一个RNN架构。不需要注意力层。

尽管transformer模型是当今大模型的主要架构，然而，注意力机制的处理能力随着要处理的序列长度呈二次增长。这有效地限制了模型的输入大小（或“上下文长度”）。此外，由于注意力机制，在生成文本时，我们需要将所有先前标记的注意力向量保存在内存中。这比仅存储单个状态的RNN需要更多的内存。

为此，香港大学物理系毕业的彭博提出了RWKV模型，RWKV将RNN和Transformer的最佳特性结合在一起。在训练期间，我们使用变换器类型的架构公式，这允许大规模并行化（带有一种随标记数量呈线性增长的注意力）。在推断期间，我们使用等效的公式，它的工作方式类似于带有状态的RNN。这使我们可以兼顾两者的优点。

因此，我们基本上拥有一个像变压器一样训练的模型，只不过长的上下文长度不会花费太多代价。在推断期间，我们需要的内存少得多，并且可以隐式地处理“无限”上下文长度（尽管在实践中，模型可能难以推广到比训练期间看到的更长的上下文长度）。

Raven 14B是一种RWKV架构的预训练大模型，基于Pile数据训练。其中，它的层数为40层，维度是5120维。其中，Raven系列模型是基于Alpaca、CodeAlpaca、Guanaco、GPT4All、ShareGPT等模型微调的RWKV架构的模型。

Raven 14B模型在LM-Sys的匿名测评中获得了第六名的成绩，仅次于Koala-13B，好于Oasst-Pythia-12B（2023年5月第二周结果）。

Raven 14B

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

Raven 14B模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号