模型详细情况和参数
Salesforce是全球最大的CRM企业,但是在开源大模型领域,它也是一个不可忽视的力量。今天,Salesforce宣布开源全新的XGen-7B模型,是一个同时在文本理解和代码补全任务上都表现很好的模型,在MMLU任务和代码生成任务上都表现十分优秀。最重要的是,它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。
尽管当前已经有很多开源的大语言模型,但是大多数模型的上下文输入的长度都不超过2k,这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。
而最近的研究也表明,在预算有限的情况下,基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型,并最终训练出XGen 7B系列大模型。
相比其他的开源大语言模型,XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练,并最高支持8K的上下文输入,在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。
XGen 7B模型包含3个版本,分别是XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-8K-inst。第一个模型是在8000亿tokens上新能力,输入序列长度为2k,然后继续以4k输入长度继续训练了4000亿tokens的数据。
接下来,基于XGen-7B-4K-base进行初始化,在3000亿tokens数据上进行输入序列长度为8k的训练,得到XGen-7B-8K-base模型。
最后,以第二阶段的模型为基础,在开源的指令数据集,如databricks-dolly-15k, oasst1, Baize 和 GPT-related等进行指令微调,得到7B-8K-inst模型。
需要注意的是,这三个模型中XGen-7B-4K-base、XGen-7B-8K-base完全开源可商用,而最后一个模型XGen-7B-8K-inst则仅限于科研使用。
XGen 7B模型最让人惊讶的是它在文本理解和代码补全方面都有很好的表现。这在开源模型中很少见。
在MMLU的5-shot和0-shot2个评测中,XGen-7b模型的加权平均得分为36.3和32.1,超过LLaMA-7b、Falcon-7b、MPT-7b等著名模型。
在常识推理和问答领域,XGen-7b也是表现很好,基本与LLaMA-7b不相上下。尤其是在TruthfulQA任务中远超其它开源模型。
最后,最难得的是XGen-7b模型在代码补全领域也很强大。在HumanEval的代码补全评测中,XGen-7b得分14.2,仅仅比MPT-7b的15.9略低,远超LLaMA-7b的10.38。而很多知名的开源模型,如Falcon-7b则是根本无法生成有意义的代码得分为0。
最终,在长序列任务中,XGen 7b表现也很好,尤其是XGen-7B-8K-inst模型,在文本摘要中得分远超其它模型!
XGen 7B模型信息卡地址:https://www.datalearner.com/ai-models/foundation-models/XGen-7B