多模态学习试图对不同模态的数据组合进行建模,这在现实世界的应用中经常出现。联合数据的一个例子是将文本(通常表示为离散的字数向量)与由像素强度和注释标签组成的成像数据相结合。由于这些模式具有根本上不同的统计属性,将它们结合在一起是不容易的,这就是为什么需要专门的建模策略和算法。
很多模型/算法已经实现了对某类数据的检索和分类,例如图像或文本(与机器互动的人类可以提取图片形式的图像和可能是任何信息的文本等)。然而,数据通常带有不同的模式(它是指一个系统的组成部分可能被分离或组合的程度),这些模式携带不同的信息。例如,为一张图片添加标题以传达该图片未呈现的信息是非常常见的。同样地,有时用图像来描述从文本中可能不明显的信息也是比较直接的。因此,如果一些不同的词出现在类似的图像中,这些词很可能是用来描述同一事物的。反之,如果一些词用在不同的图像中,这些图像可能代表同一个物体。因此,邀请一个能够共同代表信息的新模型是很重要的,这样的模型可以捕捉到不同模式之间的相关结构。此外,它还应该能够恢复缺失的模式,例如,根据文本描述预测可能的图像对象。多模态深度波尔兹曼机模型满足了上述目的。
多模态深度玻尔兹曼机被成功用于分类和缺失数据检索。在对具有图像-文本模态或单一模态的数据进行测试时,多模态深度玻尔兹曼机的分类精度优于支持向量机、潜在狄里切特分配和深度信念网络等模型。多模态深度玻尔兹曼机也能够在观察到的模态下以相当好的精度预测缺失的模态。自我监督学习为多模态带来了更有趣和强大的模型。OpenAI开发了CLIP和DALL-E模型,彻底改变了多模态。
——来自维基百科