THE MODALITY FOCUSING HYPOTHESIS: TOWARDS

modal-general的知识是对于cross modality KD决定性的。
想要解决的问题是：crossmodal KD是否总是有效的？

文章通过实验证明即使多模态teacher能够取得更好的结果，但cross蒸馏过后的student model性能还不如单模态teacher蒸馏过后student的效果。

假设存在两个模态a和b，文章认为multimodal teacher性能是由modality-general decisive and modality-specific decisive features在a,b中共同决定的。而unimodal student只能在a模态中寻找相关信息，也就是说只有a模态中的 modality-specific decisive features以及modality-general decisive对student是有用的

SMIL: Multimodal Learning with Severely Missing Modality

Can we learn a multimodal model from an incomplete dataset while its performance should as close as possible to the one that learns from a full-modality dataset?

Are Multimodal Transformers Robust to Missing Modality?

LEARNING FACTORIZED MULTIMODAL REPRESENTATIONS

Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities

TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning

key question: how to effectively train accurate classifiers by aggregating unlabeled data of all modalities?
通过融合所有模态的无标注数据进行准确classifier的学习。
多模态学习中的一个普遍信念是：在给定真实标签Y的条件下，所有模态是条件独立的，真实标签可以被视为跨所有模态的“信息交集”，即所有模态共享的一致性量。

这也是为什么多模态学习通常比单模态学习性能好的原因，通过多模态对齐和融合，模型更容易捕捉到信息交集的部分而判断出真实标签。单模态学习由于缺乏其他模态的帮助，必须从本模态中的所有信息里判断能够影响真实标签的内容，难度更大。

Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains

传统KD是单domain中进行知识传递的。已经有工作证明跨domain蒸馏是有提升的，不过前提是domain要足够相近。利用meta learning去学习元知识是有助于cross domain KD的。

Multimodal Learning with Incomplete Modalities by Knowledge Distillation

多模态学习通过学习模态之间共享的部分过滤噪声以及与目标无关的信息，这一点与TCGM的information section一致。但是该文章也说明不同模态之间的信息也能够起到补充信息的作用，这部分是modal-specific decisive features。

方法利用蒸馏的方法来将多个单模态的模型蒸到一个多模态的student里。在模态缺失的场景下，单模态的数据量优势是比多模态数据明显的，但多模态数据的准确率要比单模态数据高，如何利用单模态数据量优势将知识传导给多模态模型，同时将多模态模型的准度传导给单模态模型，相互促进性能会更好。

Knowledge distillation from multi-modal to mono-modal segmentation networks

What Makes Multi-modal Learning Better than Single (Provably)

这篇文献探讨了多模态学习是否可以明确证明优于单模态学习。通过一个流行的多模态融合框架，该文献证明了使用多个模态学习比只使用其中一个模态具有更小的总体风险。该证明的主要直觉是前者对潜在空间表示具有更准确的估计。该文献提供了关于多模态学习的第一篇理论研究，以从泛化的角度捕捉实际多模态应用程序中观察到的重要定性现象。

推出结论以及实验所能够带来的一些启发：

Theorem 1给出了启发：随着样本数量的增长，多模态学习的性能主要取决于latent representation的质量。latent representation是由feature extractor以及fusion model共同决定的。
naively end-to-end training is unstable. affecting the representation learning of each modality, while fine-tuning a multi-modal classifier over trained uni-modal encoders is more stable and the results are more consistent with our theory.

Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies

TRUSTED MULTI-VIEW CLASSIFICATION

Uncertainty-aware Audiovisual Activity Recognition using Deep Bayesian Variational Inference

TRUSTED MULTI-VIEW CLASSIFICATION

MODALITY COMPLEMENTARITY: TOWARDS UNDERSTANDING MULTI-MODAL ROBUSTNESS

关键问题：What aspects of modality interconnection affect the multi-modal robustness?

XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding

从预训练的多模态转换器组件（称为CLIP文本转换器，简称CLIP-T）中提取视觉信息给纯文本的encoder。

Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision

we explore the idea of a visually-supervised language model in this paper.

创建一个对齐的单词-视觉数据集存在两个主要挑战：首先，视觉语言数据集中可用的单词数量很少，与其他自然语言数据集相比，存在很大差异。其次，大多数自然语言单词没有视觉基础，这使得创建视觉监督变得更加困难。同时，现有方法中视觉监督的覆盖范围很小。

We thus claim that vision-and-language pre-training on visually-grounded language dataset currently might not help the pure-language tasks.

VIDLANKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

Previous works have explored multiple ways of grounding language to
visual information such as constructing a common vector space [38; 7] and supervising the model with token-wise generated vision labels [68]. However, the widely-used image-text datasets (e.g., MS COCO [48]) are much smaller than text-only corpora in terms of word counts and vocabulary diversity for language learning.

Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer

Are Visual-Linguistic Models Commonsense Knowledge Bases?

Multimodal Learning with Incomplete Modalities by Knowledge Distillation

这篇文献提出了一种基于知识蒸馏的多模态学习框架，旨在利用来自各种数据模态的信息来提高泛化性能。这个框架避免了传统的基于模型的数据补全方法所带来的噪声问题，并且可以利用缺失的补充信息来提高模态特定的信息。作者首先对每个模态分别使用所有可用数据独立地训练模型，然后使用这些训练好的模型作为“老师”，来教授学生模型。学生模型使用完整模态的样本进行训练，避免了传统多模态学习方法只能使用完整模态样本的问题。作者在合成数据集和真实世界数据集上进行了广泛的实证研究，证明了该方法的有效性。

Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation

这篇文献提出了一种解决视觉问答任务中缺失模态的新方法，特别是缺失的模态是在测试时不存在的正确答案。为了有效地解决这个问题，研究人员引入了一个名为“Big Teacher”的模型，该模型在输入图像/问题/答案三元组时优于基线模型，并使用一组模型将知识转移给只接受图像/问题对作为输入的目标网络（student）。研究人员在VizWiz和VQA-V2答案差异数据集上实验了他们的模型，并通过广泛的实验和消融研究展示了他们方法的性能和未来研究的多样性。

在VQD任务中，由于测试集中没有真实的答案标签，这导致在测试时缺少答案这一模态。虽然有工作表示即使没有答案，模型也应该能够预测问题和图像对应的答案差异的类型，但实际上，没有答案标签的模型性能通常较差，因为答案标签包含更多的信息。相比使用所有三个模态的模型，仅依靠问题和图像来预测答案差异的模型性能会更差，因为这更具挑战性。本文提出的基准模型是仅基于问题和图像的Q+I模型。为了解决这个问题，本文提出了一种新的方法，使用特权知识蒸馏的方案来处理模态缺失的问题。

Knowledge as Priors: Cross-Modal Knowledge Generalization for Datasets without Superior Knowledge

这篇文献提出了一种名为“跨模态知识泛化”的新颖方案，用于将来自训练在优质模态（Teacher）上的模型的知识转移给使用弱模态（Student）训练的另一个模型。现有的方法要求两种模态存在配对的训练样本。然而，访问优质模态的数据可能并不总是可行的，因为大多数情况下这些数据采集成本昂贵。该方法的核心思想是通过将跨模态知识建模为对学生参数的先验，将从包含来自两种模态的配对样本的源数据集中学到的蒸馏跨模态知识推广到目标数据集中。作者在标准基准数据集上进行的3D手势估计实验中证明了该方法的竞争性能。文章从概率视角出发，推导出了知识泛化的公式，并提出了一个基于元学习的算法来实现知识的泛化，并在理论上展示了这个算法与期望最大化算法之间的联系。

Cross Modal Distillation for Supervision Transfer

很早的一篇文章。这篇文献提出了一种技术，可以在不同模态的图像之间转移监督信息。作者使用来自大型标记模态的已学习表示作为无标记配对模态的表示的监督信号进行训练。这种方法可以为无标记的模态学习丰富的表示，并且可以用作具有有限标记数据的新模态的预训练过程。作者将监督信号从标记的RGB图像传输到未标记的深度图像和光流图像，并展示了这两种跨模态监督传输的大幅提高。

简而言之，本文研究了如何将不同模态（例如RGB、深度和光流图像）之间的监督信息进行迁移学习。作者的方法使用了一个已标记的模态（例如RGB图像）作为监督信号，来训练一个未标记的配对模态（例如深度和光流图像）的表示。这种方法可以帮助学习未标记模态的更丰富表示，并且可以在具有有限标记数据的新模态上进行预训练。

Multimodal Knowledge Expansion

M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

这篇文献提出了一种新的方法 M3Care，用于处理实际临床场景中常见的多模态电子病历数据中的缺失数据问题。该方法通过寻找类似的患者，利用其信息填补缺失的模态数据。实验结果表明，该方法在预测住院死亡率和住院天数方面优于现有的方法。论文中提到的解决方案的关键是利用深度学习技术将不同模态的医疗数据映射到共享的潜在空间，并利用潜在空间的表示学习模型来处理缺失数据和多模态交互的问题，以实现疾病诊断任务。

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching

Characterizing and Overcoming the Greedy Nature of Learning in Multi-modal Deep Neural Networks

Are Vision-Language Transformers Learning Multimodal Representations? A Probing Perspective

Dynamically Adjust Word Representations Using Unaligned Multimodal Information

Learning Aligned Cross-Modal Representations from Weakly Aligned Data

这篇文献介绍了如何学习跨模态场景表示，以实现模态间的转移。为了研究这个问题，作者们引入了一个新的跨模态场景数据集。虽然卷积神经网络可以很好地对跨模态场景进行分类，但它们也会学习到一个不同模态之间不对齐的中间表示，这对于跨模态转移应用来说是不理想的。为此，作者们提出了一种方法，以规范化跨模态卷积神经网络，使它们具有不考虑模态的共享表示。实验结果表明，他们的场景表示可以帮助在检索任务中实现跨模态表示的转移。此外，他们的可视化结果表明，在共享表示中会出现对应一致概念的单元，这些单元独立于模态而激活。

这篇论文的主要贡献是提出了一种方法来学习跨模态的场景表示，这种表示可以在不同的模态之间进行转移，使得计算机视觉系统能够跨模态进行识别和检索。同时，他们构建了一个新的跨模态场景数据集，该数据集捕捉了五种不同模态的数百种自然场景类型，并且仅使用场景类别作为监督信号，而不需要手动注释对齐或对应关系。通过这个数据集，他们展示了他们的方法可以学习到一种共享的、模态不可知的场景表示，并且这个表示可以在不同的模态之间进行转移，从而实现了跨模态的场景识别和检索。这项工作在计算机视觉领域的跨模态学习方向上具有重要意义，并对计算机视觉系统在实际场景中的应用具有一定的推动作用。

Weakly Paired Associative Learning for Sound and Image Representations via Bimodal Associative Memory

这篇文献介绍了无监督学习中的数据表示学习以及在双模态数据中的应用。作者指出，传统的声音和图像表示学习方法需要大量的已配对的声音和图像数据，因此在缺乏配对的双模态数据的情况下难以保证方法的有效性。基于人类认知研究的观察，作者提出了一个新的问题：如何通过使用其他未配对的模态数据来增强某个模态的表示。为了解决这个问题，作者提出了一种新的双模态联想记忆模型，可以使用少量已配对的双模态数据建立声音-图像关联，并通过大量易于获得的未配对数据来加强已建立的关联，从而增强某个模态的表示。

作者提出了Weakly Paired Associative Learning的新任务，

Audio-Visual Mismatch-Aware Video Retrieval via Association and Adjustment

这篇做的任务是视频检索，这篇文献讨论了使用自然语言查询检索所需视频的问题，并介绍了一种基于音频-视觉联合记忆（AVA-Memory）的方法，以解决音频和视觉不匹配的问题。该方法包括两个方面：一是对没有音频数据的视频进行关联音频，以指导视频嵌入特征了解音频信息；二是通过考虑视觉和音频数据匹配程度来调整音频嵌入。实验结果表明，该方法优于其他最先进的视频检索方法。同时，作者还进行了消融研究和分析，验证了所提出的网络设计的有效性。

可能可以用到的数据集：

Audiovision-MNIST
RECIPE RECOGNITION WITH LARGE MULTIMODAL FOOD DATASET
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes
Learning Cross-modal Embeddings for Cooking Recipes and Food Images

missing modality

THE MODALITY FOCUSING HYPOTHESIS: TOWARDS

SMIL: Multimodal Learning with Severely Missing Modality

Are Multimodal Transformers Robust to Missing Modality?

LEARNING FACTORIZED MULTIMODAL REPRESENTATIONS

Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities

TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning

Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains

Multimodal Learning with Incomplete Modalities by Knowledge Distillation

Knowledge distillation from multi-modal to mono-modal segmentation networks

What Makes Multi-modal Learning Better than Single (Provably)

Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies

TRUSTED MULTI-VIEW CLASSIFICATION

Uncertainty-aware Audiovisual Activity Recognition using Deep Bayesian Variational Inference

TRUSTED MULTI-VIEW CLASSIFICATION

MODALITY COMPLEMENTARITY: TOWARDS UNDERSTANDING MULTI-MODAL ROBUSTNESS

XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding

Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision

VIDLANKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer

Are Visual-Linguistic Models Commonsense Knowledge Bases?

Multimodal Learning with Incomplete Modalities by Knowledge Distillation

Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation

Knowledge as Priors: Cross-Modal Knowledge Generalization for Datasets without Superior Knowledge

Cross Modal Distillation for Supervision Transfer

Multimodal Knowledge Expansion

M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching

Characterizing and Overcoming the Greedy Nature of Learning in Multi-modal Deep Neural Networks

Are Vision-Language Transformers Learning Multimodal Representations? A Probing Perspective

Dynamically Adjust Word Representations Using Unaligned Multimodal Information

Learning Aligned Cross-Modal Representations from Weakly Aligned Data

Weakly Paired Associative Learning for Sound and Image Representations via Bimodal Associative Memory

Audio-Visual Mismatch-Aware Video Retrieval via Association and Adjustment

可能可以用到的数据集：

相关文章