标签:卷积神经网络,视觉变换器,神经网络比较,大模型,计算机视觉 时间:2023-10-29T17:41:24
视觉变换器(ViT)因其相对容易从预训练模型中获得良好性能而备受欢迎。但令人感兴趣的是,卷积神经网络(CNN)在大规模应用中可以与视觉变换器匹敌。
在最近的研究论文“ConvNets Match Vision Transformers at Scale”中,研究人员投入了高达110k TPU小时的计算预算,以公平地比较ViT和CNN。
他们的研究发现,当CNN使用与ViT典型应用相似的计算预算进行预训练时,它们可以匹配ViT的性能。为此,他们在JFT的40亿标记图像上进行预训练,然后在ImageNet上对模型进行微调。
从个人经验来看,我发现在微调ViT时,比在微调CNN时更容易获得良好的图像分类性能。例如,一个小型的ViT可以在单个GPU上微调5分钟,就可以在CIFAR-10上达到约96%的准确率。在我以前的教学经验中,要获得这样的结果,使用预训练的CNN总是具有挑战性。回顾起来,这可能是因为ViT从更大的预训练预算中受益。
然而,论文中我希望能够解决的一个问题是推理性能。虽然在微调ViT和微调CNN的性能上可以匹配,但我想知道他们在内存占用和推理速度上可能存在的优势。
总的来说,无论是CNN还是ViT,它们都有各自的优点和适用场景。在大规模应用中,两者的性能可以匹配。然而,ViT在预训练预算更大时,可能会有更好的表现。在实际应用中,我们需要根据具体的任务需求和资源限制,选择最适合的模型。
使用卷积神经网络进行手写识别
CNN中的一些高级技术(空洞卷积/显著图/反卷积)
CNN经典算法AlexNet介绍
CNN经典算法之BN-Inception(附论文详细解读)
深度学习卷积操作的维度计算(PyTorch/Tensorflow等框架中Conv1d、Conv2d和Conv3d介绍)
CNN经典算法之Inception V1(GoogLeNet)
CNN经典算法VGGNet介绍
CNN入门算法LeNet-5介绍(论文详细解读)
深度学习技巧之Padding
[翻译]应用到文本领域的卷积方法
导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总
DataLearnerAI发布中国国产开源大模型生态概览统计:国产开源大模型都有哪些?现状如何?
大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向
大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!
需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~
又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!
国产开源大模型再添重要玩家:BAAI发布开源可商用大模型Aquila
目前业界支持中文大语言模型开源和商用许可协议总结
百度文心一言发布,功能尝鲜概览
能否用85000美元从头开始训练一个打败ChatGPT的模型,并在浏览器中运行?
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介