Starling-7B-LM-Beta - Starling-7B-LM-Beta

模型详细情况和参数

Starling-7B-LM-Beta

模型全称
Starling-7B-LM-Beta
模型简称
Starling-7B-LM-Beta
模型类型
基础大模型
发布日期
2024-03-19
预训练文件大小
14.58GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
70.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
模型GitHub链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Starling-7B-LM-Beta 简介

Starling-LM-7B-alpha 是一个拥有 7B 参数的开源对话式语言模型,由加州大学伯克利分校团队发布。该模型的显著特点是,它通过强化学习从人工智能反馈(RLAIF)训练而来,旨在提升模型的有用性和无害性。


该模型基于表现卓越的 Openchat 3.5。研究团队利用自行开发的奖励模型 Starling-RM-7B-alpha,并采用了 Advantage-induced Policy Alignment (APA) —— 一种在线强化学习算法,对 Openchat 3.5 进行了进一步的微调,从而开发出 Starling-LM-7B-alpha。

Starling-RM-7B-alpha 奖励模型的训练数据极其珍贵,源自一个名为 Nectar 的 183K 高质量 7 选 1 排序数据集,所有排序标签均由 GPT-4 完成评估。在创建 Nectar 时,研究团队致力于解决 GPT-4 排序中存在的位置偏差问题,通过采用随机顺序的成对比较方式,成功获得了一个低偏差的高质量数据集。


此外,Starling-RM-7B-alpha 是基于 LLaMA 2-7B 对话模型通过微调得来,使用了新提出的 K-wise 损失函数。它被认为是目前开源社区中数一数二的优质奖励模型,在 RLAIF 过程中为 APA 算法提供了关键的奖励信号。


在一系列基准测试中,Starling-LM-7B-alpha 展现了出色的性能:

  • 在 MT-Bench 测试中,以 8.09 分的高分超越了绝大多数现有开源对话模型,仅次于 GPT-4 及其指令优化版本;
  • 在 AlpacaEval 测试中,评估模型对话有用性的分数从初始的 88.51% 提升至 91.99%;
  • 但在 MMLU 测试中,评估模型的一般语言理解能力时,分数为 63.9%,略低于顶尖水平。


这些结果表明,RLAIF 训练显著提升了 Starling 模型在回答问题时的有用性和无害性,但对基础能力如知识、推理、编码等的提升不够显著。


研究人员认为,通过这种利用大量高质量反馈数据的 RLAIF 方法,可以微调语言模型的风格和输出特征,但提升其基础能力较为困难。因此,未来可能需要结合 RLAIF 和监督微调的方法,以全面提高语言模型的综合能力。


值得注意的是,尽管 Starling 模型的奖励模型是基于 GPT-4 模拟偏好训练的,但过度优化 GPT-4 的偏好可能导致模型输出偏离真实人类的偏好,产生“政策目标漂移效应”。为了解决这一问题,未来工作需要更多来自人类的反馈数据,以使模型输出更贴近人类的实际期望。


除了发布 Starling-LM-7B-alpha 模型本身,项目团队还开源了训练所用的 Nectar 数据集和 Starling-RM-7B-alpha 奖励模型,呼吁开源社区共同参与,持续改进偏好数据、奖励模型和语言模型,推动大型语言模型研究的进一步发展。

总而言之,Starling-LM-7B-alpha 代表了对话式语言模型发展中的一个创新里程碑。它不仅展现了 RLAIF 训练在强化语言模型特定方面性能(例如有用性和无害性)的巨大潜力,同时也直面了如何进一步提升模型整体能力、平衡合成数据与人类反馈等挑战。通过开源社区的共同努力,我们期待未来能够开发出更加智能、实用,并且符合人类意愿的对话 AI 助理。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Starling-7B-LM-Beta所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Starling-7B-LM-Beta相关的任务
问答系统

问答系统

Question Answering

35个资源