模型详细情况和参数
LongForm OPT是由慕尼黑大学研究人员开放的一系列基于OPT微调的大预言模型。这个系列的模型是基于他们提出的LongForm数据集对OPT模型微调得到的。其中OPT模型是指MetaAI开源的1750亿参数规模的大预言模型: https://www.datalearner.com/ai-models/pretrained-models/OPT
LongForm数据集是一个指令微调数据集。研究人员使用大语言模型(Large Language Models,LLM)从现有的语料数据集,如C4、维基百科等中的文章提取指令,来生成大量的指令微调数据集。这种方法可以以较低的成本获取干净的指令微调数据集。再基于这些数据集微调T5、OPT和LLaMA模型,就可以提升这些模型的生成质量,并可以用来生成长文本。
最终,LongForm数据集的结果如下:
数据集类型 | 来源 | 样本数据量 |
---|---|---|
Corpora | C4 | 10000 |
Corpora | Wikipedia | 5000 |
Structured Corpora | Stack Exchange | 4380 |
Structured Corpora | WikiHow | 2500 |
Tasks | NIv2 | 3684 |
Tasks | Big Bench | 600 |
Tasks | BEA-GEC | 1203 |
Tasks | Enron | 372 |
总计 | 27739 |
目前,LongForm-OPT系列包含4个模型:
LongForm-OPT模型名称 | 参数大小 | HuggingFace资源链接 |
---|---|---|
LongForm-OPT-6.7B | 67亿 | https://huggingface.co/akoksal/LongForm-OPT-6.7B |
LongForm-OPT-1.3B | 13亿 | https://huggingface.co/akoksal/LongForm-OPT-1.3B |
LongForm-OPT-350M | 3.5亿 | https://huggingface.co/akoksal/LongForm-OPT-350M |
LongForm-OPT-125M | 1.25亿 | https://huggingface.co/akoksal/LongForm-OPT-125M |
LongForm-OPT系列模型本身是开源的,使用MIT开源协议,但是OPT本身的协议是MetaAI的模型协议,不支持商用。