← Learning Types

Machine Learning › Learning Types ›

Multi-Modal Learning

1213 directly classified papers

Papers per year

Papers

Enhancing Cross Text-Molecule Learning by Self-Augmentation ACL 2024

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering ACL 2024

L+M-24: Building a Dataset for Language+Molecules @ ACL 2024 ACL 2024

MISTI: Metadata-Informed Scientific Text and Image Representation through Contrastive Learning ACL 2024

Accept the Modality Gap: An Exploration in the Hyperbolic Space CVPR 2024

Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence CVPR 2024

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis CVPR 2024

GlitchBench: Can Large Multimodal Models Detect Video Game Glitches? CVPR 2024

DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting CVPR 2024

Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models CVPR 2024

How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? EMNLP 2024

Language Concept Erasure for Language-invariant Dense Retrieval EMNLP 2024

ASL STEM Wiki: Dataset and Benchmark for Interpreting STEM Articles EMNLP 2024

MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification EMNLP 2024

LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs EMNLP 2024

OdiaGenAI’s Participation in WMT2024 English-to-Low Resource Multimodal Translation Task EMNLP 2024

Chitranuvad: Adapting Multi-lingual LLMs for Multimodal Translation EMNLP 2024

Addressing Asynchronicity in Clinical Multimodal Fusion via Individualized Chest X-ray Generation NIPS 2024

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models NIPS 2024

Coupled Mamba: Enhanced Multimodal Fusion with Coupled State Space Model NIPS 2024

ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition INTERSPEECH 2023

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation CVPR 2023

MIST: Multi-Modal Iterative Spatial-Temporal Transformer for Long-Form Video Question Answering CVPR 2023

Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling CVPR 2023

Multi-Modal Gait Recognition via Effective Spatial-Temporal Feature Fusion CVPR 2023