Computer Science > Computer Vision and Pattern Recognition

arXiv:2408.07445 (cs)

[Submitted on 14 Aug 2024]

Title:Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach

Authors:Muhammad Saad Saeed, Shah Nawaz, Muhammad Zaigham Zaheer, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, Hassan Sajjad, Tom De Schepper, Markus Schedl

View PDF HTML (experimental)

Abstract:Multimodal networks have demonstrated remarkable performance improvements over their unimodal counterparts. Existing multimodal networks are designed in a multi-branch fashion that, due to the reliance on fusion strategies, exhibit deteriorated performance if one or more modalities are missing. In this work, we propose a modality invariant multimodal learning method, which is less susceptible to the impact of missing modalities. It consists of a single-branch network sharing weights across multiple modalities to learn inter-modality representations to maximize performance as well as robustness to missing modalities. Extensive experiments are performed on four challenging datasets including textual-visual (UPMC Food-101, Hateful Memes, Ferramenta) and audio-visual modalities (VoxCeleb1). Our proposed method achieves superior performance when all modalities are present as well as in the case of missing modalities during training or testing compared to the existing state-of-the-art methods.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2408.07445 [cs.CV]
	(or arXiv:2408.07445v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2408.07445

Submission history

From: Shah Nawaz [view email]
[v1] Wed, 14 Aug 2024 10:32:16 UTC (16,491 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators