cross-modal learning

521 papers

Explore in graph

Also known as

CMP C3HOST

Co-occurring keywords

multimodal learning (4622) contrastive learning (3979) knowledge distillation (3680) representation learning (6174) multi-modal learning (1276) vision-language model (2235) self-supervised learning (3751) domain adaptation (4578) video understanding (1647) zero-shot learning (3637)

Papers

Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification ICCV 2025

GLEAM: Enhanced Transferable Adversarial Attacks for Vision-Language Pre-training Models via Global-Local Transformations ICCV 2025

Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-Identification WACV 2025

3D Denoisers Are Good 2D Teachers: Molecular Pretraining via Denoising and Cross-Modal Distillation AAAI 2025

SMDAF: A Scalable Sidewalk Material Data Acquisition Framework with Bidirectional Cross-Modal Knowledge Distillation WACV 2025

Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding WACV 2025

X-FLoRA: Cross-modal Federated Learning with Modality-expert LoRA for Medical VQA EMNLP 2025

VILLS : Video-Image Learning to Learn Semantics for Person Re-Identification WACV 2025

Cross-modulated Attention Transformer for RGBT Tracking AAAI 2025

IMOL: Incomplete-Modality-Tolerant Learning for Multi-Domain Fake News Video Detection ACL 2025

TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm WACV 2025

Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition - And Ways to Overcome Them AAAI 2025

Learning to See through Sound: From VggCaps to Multi2Cap for Richer Automated Audio Captioning EMNLP 2025

CNC: Cross-modal Normality Constraint for Unsupervised Multi-class Anomaly Detection AAAI 2025

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech CVPR 2025

WiFi CSI Based Temporal Activity Detection via Dual Pyramid Network AAAI 2025

NeKo: Cross-Modality Post-Recognition Error Correction with Tasks-Guided Mixture-of-Experts Language Model ACL 2025

Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation EMNLP 2025

DECIDER: Difference-aware Contrastive Diffusion Model with Adversarial Perturbations for Image Change Captioning AAAI 2025

MINIMA: Modality Invariant Image Matching CVPR 2025

Multi-to-Single: Reducing Multimodal Dependency in Emotion Recognition Through Contrastive Learning AAAI 2025

ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition ICCV 2025

Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer WACV 2025

MindPainter: Efficient Brain-Conditioned Painting of Natural Images via Cross-Modal Self-Supervised Learning AAAI 2025

Look Around Before Locating: Considering Content and Structure Information for Visual Grounding AAAI 2025