模型发布时间: 2022-10-20
模型发布机构: Google Research
模型所属类型: 自然语言处理
Flan-T5是Google发布的一个大模型。它是T5模型的增强版,基于不同任务进一步微调得到的结果。尽管它的参数与T5数量相同,但是模型的性能提高了2位数。
Google共开源了5个版本的Flan-T5模型,参数从8000万到110亿。
Flan-T5微调教程(基于DeepSpeed和Hugging Face Transformers): https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/deepseed-flan-t5-summarization.ipynb
原始论文: https://arxiv.org/abs/2210.11416
亚马逊的Flan-T5教程: https://aws.amazon.com/blogs/machine-learning/zero-shot-prompting-for-the-flan-t5-foundation-model-in-amazon-sagemaker-jumpstart/