模型详细情况和参数
Starling-LM-7B-alpha 是一个拥有 7B 参数的开源对话式语言模型,由加州大学伯克利分校团队发布。该模型的显著特点是,它通过强化学习从人工智能反馈(RLAIF)训练而来,旨在提升模型的有用性和无害性。
该模型基于表现卓越的 Openchat 3.5。研究团队利用自行开发的奖励模型 Starling-RM-7B-alpha,并采用了 Advantage-induced Policy Alignment (APA) —— 一种在线强化学习算法,对 Openchat 3.5 进行了进一步的微调,从而开发出 Starling-LM-7B-alpha。
Starling-RM-7B-alpha 奖励模型的训练数据极其珍贵,源自一个名为 Nectar 的 183K 高质量 7 选 1 排序数据集,所有排序标签均由 GPT-4 完成评估。在创建 Nectar 时,研究团队致力于解决 GPT-4 排序中存在的位置偏差问题,通过采用随机顺序的成对比较方式,成功获得了一个低偏差的高质量数据集。
此外,Starling-RM-7B-alpha 是基于 LLaMA 2-7B 对话模型通过微调得来,使用了新提出的 K-wise 损失函数。它被认为是目前开源社区中数一数二的优质奖励模型,在 RLAIF 过程中为 APA 算法提供了关键的奖励信号。
在一系列基准测试中,Starling-LM-7B-alpha 展现了出色的性能:
这些结果表明,RLAIF 训练显著提升了 Starling 模型在回答问题时的有用性和无害性,但对基础能力如知识、推理、编码等的提升不够显著。
研究人员认为,通过这种利用大量高质量反馈数据的 RLAIF 方法,可以微调语言模型的风格和输出特征,但提升其基础能力较为困难。因此,未来可能需要结合 RLAIF 和监督微调的方法,以全面提高语言模型的综合能力。
值得注意的是,尽管 Starling 模型的奖励模型是基于 GPT-4 模拟偏好训练的,但过度优化 GPT-4 的偏好可能导致模型输出偏离真实人类的偏好,产生“政策目标漂移效应”。为了解决这一问题,未来工作需要更多来自人类的反馈数据,以使模型输出更贴近人类的实际期望。
除了发布 Starling-LM-7B-alpha 模型本身,项目团队还开源了训练所用的 Nectar 数据集和 Starling-RM-7B-alpha 奖励模型,呼吁开源社区共同参与,持续改进偏好数据、奖励模型和语言模型,推动大型语言模型研究的进一步发展。
总而言之,Starling-LM-7B-alpha 代表了对话式语言模型发展中的一个创新里程碑。它不仅展现了 RLAIF 训练在强化语言模型特定方面性能(例如有用性和无害性)的巨大潜力,同时也直面了如何进一步提升模型整体能力、平衡合成数据与人类反馈等挑战。通过开源社区的共同努力,我们期待未来能够开发出更加智能、实用,并且符合人类意愿的对话 AI 助理。