模型详细情况和参数
Flan-T5支持多种语言,包括中文。
Flan-T5是谷歌AI团队提出的基于思维链微调的大语言模型,相比较传统的微调方法,基于思维链微调的预训练模型要好很多。
人工智能的一个重要目标是开发能够概括到看不见的任务的模型。在自然语言处理(NLP)中,预训练的语言模型在实现这一目标方面取得了重大进展,因为它们可以执行给定自然语言描述的任务。通过对一系列以指令为措辞的任务进行微调语言模型,取得了进一步的进展,这使模型能够更好地响应指令,并减少了对few shot示例的需要
Flan-T5是Google从另一种方式尝试的自然语言大模型的路径。Google通过几种方式推进了指令微调。
首先,Google研究了缩放(scaling)对指令微调的影响。实验表明,指令微调确实随着任务数量和模型大小的变化而很好地扩展。他们各自的缩放行为表明,未来的研究应该进一步放大任务的数量和模型的大小。
其次,Google研究了微调对模型执行推理任务能力的影响。实验表明,虽然不包括思维链的先前指令微调方法严重降低了CoT评估的性能,但在微调混合物中仅添加9个CoT数据集,就可以在所有评估中获得更好的性能。
基于这些发现,Google通过使用5400亿参数的模型来训练Flan-PaLM,将微调任务的数量增加到1.8K,并包括CoT数据。Flan-PaLM的表现优于PaLM,在几个基准上实现了新的最先进状态。例如,Flan-PaLM改进的推理能力使其能够利用CoT和自洽性(Wang等人,2022c),在大规模多任务语言理解上实现75.2%(MMLU;Hendricks等人,2020年)。与PaLM相比,Flan-PaLM还提高了多语种能力,例如一次性TyDiQA(Clark等人,2020年)的绝对改进14.9%,在代表性不足的语言中的算术推理(Shi等人,2022年)的绝对改进8.1%。在人类评分器评估中,Flan-PaLM在一组具有挑战性的开放式生成问题上的表现大大优于PaLM,这表明可用性得到了提高。
此外,Google发现指令微调还提高了几个负责任的人工智能评估基准的性能。而谷歌还指导微调了Flan-T5型号(80M至11B)。这些checkpoints具有强大的zero-shot、few-shot和CoT能力,表现优于T5等以前的checkpoints(拉菲尔等人,2020年)。例如,Flan-T5 110亿参数的性能以两位数的改进优于T5 110亿参数模型,甚至在一些具有挑战性的大Bench任务上优于PaLM 620亿参数。
尽管谷歌没有开源更加强大的Flan-PaLM,但是Flan T5模型却公开了,并且有预训练好的checkpoints下载。
Flan-T5的模型下载地址:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints