模型详细情况和参数
T5全称是Text-to-Text Transfer Transformer,是谷歌研究人员在2019年提出的一个研究框架和预训练模型。在2019年,谷歌研究人员已经意识到基于未标注的大量文本数据训练大模型作为下游任务的基础是一种十分高效的自然语言处理方法。这种方法的主要目的是使模型开发通用能力和知识,然后将其转移到下游任务。但是,快速发展的预训练模型让大家难以比较不同的方法。为此,谷歌在这篇论文中提出将NLP领域的预训练任务当作一个text-to-text任务。然后基于这个框架来研究NLP预训练模型。
区别于之前的模型,由于谷歌将预训练任务当作一个text-to-text任务,因此不需要标注数据,也就是不需要BERT那种模型,于是,谷歌提出了T5模型,将NLP领域的问答系统、语言模型等任务都当作了Text-to-Text任务。如下图所示:
值得一提的是,谷歌将T5模型的源代码和预训练模型都公开了。起初是基于TensorFlow的T5模型,然后他们基于JAX重写了该模型,速度和性能都有了更好的提升。
原始T5开源的模型有多个版本:
T5-Small:600万参数,预训练结果地址:gs://t5-data/pretrained_models/small
T5-Base:2.2亿参数,预训练结果地址:gs://t5-data/pretrained_models/base
T5-Large:7.7亿参数,预训练结果地址:gs://t5-data/pretrained_models/large
T5-3B:30亿参数,预训练结果地址:gs://t5-data/pretrained_models/3B
T5-11B:110亿参数,预训练结果地址:gs://t5-data/pretrained_models/11B
官方博客: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
原版模型: https://github.com/google-research/text-to-text-transfer-transformer
原版模型预训练文件(checkpoint): https://console.cloud.google.com/storage/browser/t5-data/pretrained_models?pageState=(%22StorageObjectListTable%22:(%22f%22:%22%255B%255D%22))&prefix=&forceOnObjectsSortingFiltering=false
基于JAX新版模型: https://github.com/google-research/t5x