← Learning Types

Deep Learning › Learning Types ›

Multi-Modal Learning

3194 directly classified papers

Papers per year

Papers

FFF: Fixing Flawed Foundations in Contrastive Pre-Training Results in Very Strong Vision-Language Models CVPR 2024

Multi-agent Collaborative Perception via Motion-aware Robust Communication Network CVPR 2024

VCoder: Versatile Vision Encoders for Multimodal Large Language Models CVPR 2024

Previously on ... From Recaps to Story Summarization CVPR 2024

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos CVPR 2024

Rethinking Reverse Distillation for Multi-Modal Anomaly Detection AAAI 2024

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction CVPR 2024

Efficient Representation Learning of Satellite Image Time Series and Their Fusion for Spatiotemporal Applications AAAI 2024

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations CVPR 2024

Overview of Shared Task on Multitask Meme Classification - Unraveling Misogynistic and Trolls in Online Memes EACL 2024

Generative Multimodal Models are In-Context Learners CVPR 2024

Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning CVPR 2024

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition CVPR 2024

Uncertainty-Aware Yield Prediction with Multimodal Molecular Features AAAI 2024

Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation CVPR 2024

Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods CVPR 2024

Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions CVPR 2024

Dual-View Visual Contextualization for Web Navigation CVPR 2024

Multimodal Graph Neural Architecture Search under Distribution Shifts AAAI 2024

Semantic-aware SAM for Point-Prompted Instance Segmentation CVPR 2024

Discriminative Probing and Tuning for Text-to-Image Generation CVPR 2024

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners CVPR 2024

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions CVPR 2024

Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion CVPR 2024

Cross-Modal Match for Language Conditioned 3D Object Grounding AAAI 2024