📜 Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion
本文没有源码,适合基础好的读者
🍞 1:研究背景与问题定义
🍫 1.1 多模态融合的黄金承诺与现实落差
在人工智能的迅猛发展浪潮中,多模态学习(Multimodal Learning)扮演着越来越重要的角色。我们日常生活中的感知信息并非单一形式:人类在对话中同时理解对方的语气(语音)、表情(视觉)和措辞(文本);一款智能助手在处理任务时,往往需要联合处理图像、文字、语音、视频等多种模态信息。
基于此,多模态融合(Multimodal Fusion) 作为一种提升AI系统泛化能力、增强表示表达力的手段,受到了广泛关注。其基本目标是:
将不同模态中的互补信息进行整合,以获取更鲁棒、更准确的联合表征。
早期方法主要采用Early Fusion(特征级拼接)或Late Fusion