数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
通用人工智能(AGI)再往前一步:MetaAI发布新的能听会说的多模态AI大模型ImageBind
标签:
#AGI#
#ImageBind#
#多模态大模型#
时间:2023/05/10 13:32:14
作者:小木
当前,大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是,AI模型目前还无法像人类一样接受周围的多模态信息进行处理,如图像、文本、声音等。但是,昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind,它可以同时处理6种数据,并输出。本文将简单介绍一下这个模型。 [TOC] #### ImageBind简介 AI模型在学习时,往往只能接受单一形式的信息,只不过如今这一情况正在改变。来自MetaAI团队的最新进展是,他们开发了一种名为ImageBind的AI模型,该模型可以同时将来自六个形态的信息进行绑定,从而使得机器在多种形式的数据中同时地、完整地、直接地进行学习,而不需要进行显式的监督。 ImageBind不仅可以处理文本、图片/视频和音频,还可以处理记录深度(3D)、热力学(红外线辐射)以及惯性测量单元(IMU,即能够计算物体的运动和位置)的传感器,从而从多重角度为机器提供全面的理解。

该技术比先前的专业模型有更好的表现,同时也能帮助AI技术更好地分析多种不同形式的信息。 ImageBind还为更准确地识别、连接和管控内容、更为扩展的多模态搜索功能等提供了可能性,以及在生成更丰富的媒体时又能更为自然地进行操作等方面,ImageBind都会有所作为。 ImageBind是Meta发展多模态AI系统的一部分。随着模态数量的增加,ImageBind也为研究人员提供了更多开发全面系统的机会。ImageBind的多模态能力可以使研究人员将其他形式的数据作为输入查询,并以其他格式检索输出,从而打通不同形式间的隔阂,进一步构建出类人智能的机器。 #### ImageBind模型技术解析 ImageBind作为MetaAI新发布的多模态模型,专注于多模态表示学习。从模型设计来说,ImageBind的目标是利用图像绑定(Image Bind)学习一个embedding空间,里面包含了所有模态的信息。 MetaAI将每种模态的embedding与图像embedding进行对齐,例如使用网络数据将文本对齐到图像,使用带有IMU的自我中心相机捕获的视频数据将IMU对齐到视频。 这种对其可以用(I,M)形式的对表示,其中,I表示图像,M表示其它模态的embedding。MetaAI将每个模态M的embedding对齐到图像的embedding中。实际训练中,他们观察到在嵌入空间中出现了一种涌现的行为,即使我们只使用(I,M1)和(I,M2)对进行训练,最后页可以将两个模态对(M1,M2)对齐。这种行为使我们能够执行各种zeor-shot和跨模态检索任务,而无需对它们进行训练。 这样做的好处是你不需要找到拥有所有模态的数据集就可以训练了。 具体来说,ImageBind的主要的步骤如下:

1. 跨模态抽取(Cross-Modal Retrieval):这是指显示出不同模态(例如音频、深度或文本)之间的涌现对齐(emergent alignment),尽管它们之间并没有被同时观察到。 2. 将来自不同模态的嵌入加在一起可以自然地组合它们的语义。 3. 通过使用音频嵌入和预先训练的DALLE-2解码器与CLIP文本嵌入配合使用,可以实现从音频到图像的生成。 在未来,ImageBind可以利用DINOv2的强大视觉特征进一步提高其功能。 DINOv2是MetaAI最新开源的计算机视觉领域的预训练大模型。相比较DINO的第一个版本,作者做了很多的修改,使得v2版本的DINO模型性能更加强大。具体信息可以参考DINOv2在DataLearner上的模型信息卡内容:https://www.datalearner.com/ai-models/pretrained-models/DINOv2

ImageBind通过使用图像对齐将六种模态的嵌入对齐到一个共同的空间来工作。这个联合嵌入空间可以实现跨模态检索、嵌入空间算术运算和音频到图像生成。 以音频生成图像为例,ImageBind使用音频嵌入和一个预训练的DALLE-2解码器来生成图像,该解码器设计用于与CLIP文本嵌入一起工作。这种能力使得可以从音频输入生成图像,这在音乐、电影和游戏等领域具有潜在的应用。例如,它可以用于生成声音效果或音乐作品的视觉表示。 在实践中,ImageBind 利用 web 规模的(图像,文本)配对数据,并将其与自然出现的配对数据(如(视频,音频),(图像,深度)等)结合使用,以学习一个单一的联合嵌入空间。这使得 ImageBind 能够将文本嵌入对齐到其他模态,如音频、深度等,从而实现了对该模态的零样本识别能力,而不需要显式的语义或文本配对。此外,MetaAI还展示了它可以用大规模的视觉语言模型(如 CLIP)进行初始化,从而利用这些模型的丰富的图像和文本表示。因此,ImageBind 可以应用于各种不同的模态和任务,只需要很少的训练。 #### ImageBind的实际测试效果 ImageBind的特征可用于少样本的音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。例如,ImageBind在四样本分类的top-1准确度上获得了大约40%的提升,显着优于在Audioset上进行自我监督训练和进行音频分类微调的Meta自我监督AudioMAE模型以及监督AudioMAE模型。

ImageBind还在跨模态的自发零样本识别任务上取得了新的最佳表现,甚至胜过了针对该模态的最近训练的概念识别模型。 #### ImageBind模型的代码、在线演示等资源 MetaAI开源了ImageBind的预训练结果和代码。同时还有一个在线演示地址,演示了ImageBind的多种能力,主要是: 1. 图像生成音频 2. 音频生成图像 3. 文本生成图像&音频 4. 音频&图像生成图像 5. 音频生成图像 下图是官网中鸟叫音频生成的图像:

相关资源链接如下: 论文地址:https://facebookresearch.github.io/ImageBind/paper ImageBind官方介绍博客:https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/ ImageBind的在线演示地址:https://imagebind.metademolab.com/ ImageBind的演示视频:https://dl.fbaipublicfiles.com/imagebind/imagebind_video.mp4
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客