综合百科

多模态的通俗理解

多模态的通俗理解

转自数据分析及应用。

我们身处的世界是一个多模态的世界,我们通过看到物体,听到声音,感觉到质地,闻到气味,尝到味道来体验世界。模态是指某件事发生或经历的方式,当研究问题涉及多个模态时,它就具有了多模态的特征。为了让人工智能在理解我们周围世界方面取得进展,它需要能够解释这些多模态的信号。

多模态大数据包含丰富的多模态和跨模态信息,对传统的数据融合方法提出了巨大的挑战。为了融合这些多模态大数据,我们已经介绍了一些开创性的深度学习模型。随着对多模态大数据的深入探索,仍有一些挑战需要解决。在这篇综述中,我们将从模型任务、模型框架和评估数据集的角度回顾最具代表性的多模态数据融合深度学习模型。

受限玻尔兹曼机(RBM)是深度信念网的基本块,它由可见层和隐藏层组成。RBM可以通过能量函数捕获可见单元和隐藏单元之间的概率分布。为了保护数据的内部结构,张量RBM被提出,使用张量分解来避免维灾难。DBM是一种典型的深度架构,由多个RBM堆叠而成,可以利用生成模型来捕捉可见物体与相应标签之间的关节分布。

堆叠式自动编码器(SAE)是编码器-架构的深度学习模型,它可以通过无监督-监督方式将原始输入转换为中间表示,捕获输入的简洁特征。卷积网络是一种特殊的深度网络,考虑了数据的局部拓扑结构,它通过随机梯度下降算法进行训练,在医学图像识别和语义分析方面取得了很大进展。

递归网络(RNN)是一种处理串行数据的计算架构,它不仅将输入模式映输出结果,而且还通过利用隐藏单元之间的连接将隐藏状态传输到输出。基于这些深度学习架构的多模态模型分为四类,并从模型任务、模型框架和评估数据集的角度进行了总结。

虽然这些基于DBN、SAE、和RNN的多模态模型已经取得了一些进展,但仍然存在挑战。例如,多模态数据融合深度学习模型中存在大量自由权重和可能影响目标任务的冗余参数。多模态数据不仅包含跨模态信息,还包含丰富的空间和时间拓扑结构。未来的研究可以结合现有的压缩策略设计新的多模态深度学习压缩方法,并探索深度学习和语义融合策略的结合,以更好地处理多模态数据。

表1:如上文所述,表格总结了代表性深度学习模型。

图1:图例展示了不同模型的结构和特点。

图2-图7:展示了各种多模态深度学习模型的架构和流程。

多模态数据融合的深度学习是一个充满挑战和机遇的领域。通过不断的研究和创新,我们可以开发出更有效的多模态深度学习模型,以更好地理解和处理多模态数据,从而推动人工智能的发展。


多模态的通俗理解

你可能也会喜欢...