数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit
标签:
#few-shotlearning#
#sentencetransformers#
#transformers#
时间:2022/09/27 23:17:15
作者:小木
少量标记的学习(Few-shot learning)是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况,利用预训练模型,在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天,Hugging Face发布了一个新的语句transformers(Sentence Transformers)框架,可以针对少量标记数据进行模型微调以获取很好的效果。 SetFit在很少标记的数据训练中也获得了十分好的性能。例如,在用户评论情感分类数据中,在每一种情感分类的类别下仅仅标注8个实例,也让SetFit获得了很高的分类效果,比在3000个标注数据上进行微调的RoBERTa模型效果更好。RoBERTa是Yinhan Liu在2019年发布的一个模型,它以BERT架构为基础,但更改了超参数的选择使得模型可以在较少的资源下获得更好的性能。

与其他少量标记的学习方法相比,SetFit有几个独特的特点。 🗣 没有提示或口述者。目前的微调技术需要手工制作的提示语或口头语来将例子转换成适合底层语言模型的格式。SetFit通过直接从少量标记的文本例子中生成丰富的embedding,完全免除了提示。 🏎 快速训练。SetFit不需要像T0或GPT-3那样的大规模模型来实现高准确率。因此,它的训练和运行推理的速度通常要快一个数量级(或更多)。 🌎 多语言支持。SetFit可以与Hub上的任何Sentence Transformer一起使用,这意味着你可以通过简单地微调多语言checkpoint对文本进行分类。 SetFit的设计考虑到了效率和简单性。SetFit首先在少量已标记的例子(通常每类8或16个)上对Sentence Transformer模型进行微调。然后,在经过微调的Sentence Transformer产生的embeddings上训练分类器头。

尽管SetFit比现有的few-shot模型小得多,但在各种基准上,SetFit的表现与最先进的few-shot模型相当或更好。在RAFT,一个少量分类基准上,SetFit Roberta(使用all-roberta-large-v1)以3.55亿个参数胜过PET和GPT-3。它略低于人类的平均表现和110亿参数的T-few--一个规模是SetFit Roberta的30倍的模型。SetFit在11个RAFT任务中的7个任务上也优于人类基线。 | Rank | Method | Accuracy | Model Size | | ------------ | ------------ | ------------ | ------------ | | 2 | T-Few | 75.8 | 110亿 | 4 | Human Baseline | 73.5 | N/A | 6| SetFit (Roberta Large) | 71.3 | 3.55亿 | 9 | PET | 69.6 | 2.35亿 | 11 | SetFit (MP-Net) | 66.9 | 1.1亿 | 12 | GPT-3 | 62.7 | 1750亿 在其他数据集上,SetFit在各种任务中都显示出鲁棒性。如上图所示,在每类只有8个例子的情况下,它通常比PERFECT、ADAPET和微调的vanilla变换器更优秀。SetFit也取得了与T-Few 3B相当的结果,尽管它是无提示的,而且体积小27倍。

由于SetFit以相对较小的模型实现了较高的准确率,因此它的训练速度非常快,而且成本更低。例如,在NVIDIA V100上训练SetFit,有8个标记的例子,只需要30秒,成本为0.025美元。相比之下,训练T-Few 3B需要NVIDIA A100,需要11分钟,同样的实验成本约为0.7美元--多了28倍。事实上,SetFit可以在单个GPU上运行,比如在Google Colab上发现的那些GPU,甚至可以在CPU上训练SetFit,只需几分钟就可以完成! 如上图所示,SetFit的速度提升是在模型性能相当的情况下实现的。在推理方面也取得了类似的收益,提炼SetFit模型可以带来123倍🤯的速度提升。

论文地址:https://arxiv.org/abs/2209.11055 代码地址:https://github.com/huggingface/setfit 数据和模型地址:https://huggingface.co/SetFit
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客