DI

DINOv2

视觉大模型

DINOv2

发布时间: 2023-04-14

模型参数(Parameters)
11.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

视觉大模型

发布时间

2023-04-14

模型预文件大小

4.2GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

DINOv2模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

-------------------2023/09/01更新------------------

DINOv2完全开源,代码和预训练权重均以Apache2.0协议开源



DINOv2是MetaAI最新开源的计算机视觉领域的预训练大模型。相比较DINO的第一个版本,作者做了很多的修改,使得v2版本的DINO模型性能更加强大。


DINOv2简介

2021年4月30日,MetaAI公开了DINO算法,DINO的核心思想是在无需标注数据的情况下,学习图像的有意义表示。通过自监督学习,DINO可以从大量未标注的图像中提取视觉特征,这些特征对于各种下游计算机视觉任务非常有用,例如图像分类、物体检测和语义分割。时隔一年后的2022年4月8日,MetaAI开源了DINO的实现代码和预训练结果。


一年之后的2023年4月17日,MetaAI开源DINOv2版本。相比较原始的DINO模型,DINOv2能够对视频进行处理,生成比原始DINO方法更高质量的分割结果。DINOv2能够呈现出非凡的特性,例如对物体部分的强大理解,以及对图像的鲁棒语义和低级理解。



DINOv2是一项开创性的工作,它是一种对自监督学习是否有潜力在大量精选数据上进行预训练后学习通用视觉特征的验证。


自监督学习是一种用于为文本应用创建尖端大型语言模型的方法,因为它不需要大量的标记数据,所以它是一种强大而灵活的训练AI模型的方式。与其他自监督系统类似,使用DINOv2方法的模型可以在任何图像集合上进行训练,而无需任何相关的元数据。可以将其视为能够从所有给定的图像中学习,而不仅仅是包含特定一组标签、替代文本或标题的图像。


与许多最近基于重构的自监督学习方法不同,DINOv2不需要微调。DINOv2提供高性能的特征,可以直接用作简单线性分类器的输入。这种灵活性意味着DINOv2可用于创建许多不同计算机视觉任务的通用主干。测试结果显示,在分类、分割和图像检索等任务中,具有非常强的预测能力。令人惊讶的是,在深度估计任务中,DINOv2特征明显优于在域内和域外评估的专业最先进流程。Meta认为这种出色的跨域性能是由于自监督特征学习和使用轻量级任务特定模块(如线性分类器)的结合。


DINOv2比使用图像-文本预训练模型的优势

近年来,基于图像-文本对数据对模型做预训练,然后应用预训练结果模型到其它任务是很流行的方式。但是,这种方式往往忽略了重要的图片信息,例如一张照片中橡木椅子的标题可能是“单人橡木椅子”,但是标题忽略了背景的重要信息,例如椅子在紫色房间中的空间位置。因此,Meta认为基于标题的特征缺乏对局部信息的正确理解,并可能导致需要详细局部信息的下游任务性能较差。由于DINOv2基于自监督学习,通过不依赖文本描述来避免这个问题。这反过来,结合强大的执行能力,使得DINOv2能够为单目深度估计提供最先进的结果。在这个任务中,目标是预测哪些对象在前景,哪些对象在背景中。


与NLP的预训练大模型发展类似,如果使用标注数据做语言模型的训练会严重限制模型的发展。因此,这几年大语言模型最主要的训练数据都是无标签的数据,基于生成模型的方式来做的训练。对图像进行标注也会类似的限制模型的发展。而DINOv2就是一种基于无标注数据进行视觉模型训练的一种尝试。


DINOv2的效果

作者在8个视觉任务中做了测试,随着训练的增多,DINOv2模型的能力也在迅速提高。



DINOv2使用的数据集

DINOv2的效果很好的一个重要原因是使用了比较高质量的大规模数据集。这是MetaAI自己收集的,目前没有公开。

该工作的关键组成部分之一是训练更大的模型,为了提高性能,更大的模型需要更多的数据来训练。但是并不总是能够访问更多的数据。由于没有足够大的精心筛选的数据集可供使用,MetaAI研究了如何利用一个公共可用的网络爬取数据存储库,并建立了一个选择有用数据的流程,这受到了LASER的启发。从这样的数据源中构建大规模预训练数据集需要两个关键要素:丢弃无关图像并在概念上平衡数据集。这种精细的筛选无法通过人工实现,我们希望使用一种方法,可以捕捉不易与元数据关联的分布。这是通过从约25个第三方数据集的集合中筛选一组种子图像并通过检索足够接近这些种子图像的图像来实现的。这种方法使我们能够从12亿源图像中获得142 million张的预训练数据集。


DINOv2开源的代码、预训练模型

DINOv2是MetaAI在2023年又一个重磅的开源项目。从代码到模型预训练结果均是公开的。


下表是预训练结果开源地址:

model# of
params
ImageNet
k-NN
ImageNet
linear
download
ViT-S/14 distilled21 M79.0%81.1%backbone only
ViT-B/14 distilled86 M82.1%84.5%backbone only
ViT-L/14 distilled300 M83.5%86.3%backbone only
ViT-g/141,100 M83.5%86.5%backbone only


该研究组收集和整理了一份包含1.42亿张图像的大型预训练数据集,从网络爬取的数据中进行筛选,以涵盖多个重要的视觉领域。

开源代码地址: https://github.com/facebookresearch/dinov2 

官方博客: https://ai.facebook.com/blog/dino-v2-computer-vision-self-supervised-learning

官方博客2: https://dinov2.metademolab.com/ 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat