基于视频数据的预训练模型VITO以及向ImageNet看齐的视频数据基准VideoNet发布
时间:2022-10-13 22:15:53.148
论文名:Self-supervised video pretraining yields strong image representation
发布时间:2022年10月
论文地址:https://arxiv.org/abs/2210.06433
代码地址:
原文摘要:视频所包含的信息远远多于静止的图像,并具有学习视觉世界的丰富表征的潜力。然而,对图像数据集的预训练仍然是学习捕捉空间信息的表征的主流范式,以前在视频预训练方面的尝试在图像理解任务中是失败的。在这项工作中,我们重新审视了从视频帧的动态演变中对图像表征的自我监督学习。为此,我们提出了一个数据集策划程序,以解决视频和图像数据集之间的领域不匹配问题,并开发了一个对比性学习框架,以处理自然视频中存在的复杂转换。这种将知识从视频提炼成图像表征的简单范式,称为VITO,在各种基于图像的迁移学习任务中表现得出奇地好。在PASCAL和ADE20K的语义分割以及COCO和LVIS的物体检测上,我们的视频预训练模型首次缩小了与ImageNet预训练的差距,这表明视频预训练可以成为学习图像表征的新默认方法。