cross-modal learning

521 papers

Explore in graph

Also known as

CMP C3HOST

Co-occurring keywords

multimodal learning (4622) contrastive learning (3979) knowledge distillation (3680) representation learning (6174) multi-modal learning (1276) vision-language model (2235) self-supervised learning (3751) domain adaptation (4578) video understanding (1647) zero-shot learning (3637)

Papers

Cross-Modal Learning for Music-to-Music-Video Description Generation NAACL 2025

MemDistill: Distilling LiDAR Knowledge into Memory for Camera-Only 3D Object Detection ICCV 2025

CNC: Cross-modal Normality Constraint for Unsupervised Multi-class Anomaly Detection AAAI 2025

Seeking Proxy Point via Stable Feature Space for Noisy Correspondence Learning IJCAI 2025

MagicMirror: ID-Preserved Video Generation in Video Diffusion Transformers ICCV 2025

Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D Motion CVPR 2025

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting CVPR 2025

SSN_MMHS@DravidianLangTech 2025: A Dual Transformer Approach for Multimodal Hate Speech Detection in Dravidian Languages NAACL 2025

Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection ICCV 2025

Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification ICCV 2025

DECIDER: Difference-aware Contrastive Diffusion Model with Adversarial Perturbations for Image Change Captioning AAAI 2025

Learning Visual Proxy for Compositional Zero-Shot Learning ICCV 2025

Learning to See through Sound: From VggCaps to Multi2Cap for Richer Automated Audio Captioning EMNLP 2025

WildSAT: Learning Satellite Image Representations from Wildlife Observations ICCV 2025

MINIMA: Modality Invariant Image Matching CVPR 2025

DTW-Align: Bridging the Modality Gap in End-to-End Speech Translation with Dynamic Time Warping Alignment EMNLP 2025

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment CVPR 2025

VideoVAE+: Large Motion Video Autoencoding with Cross-modal Video VAE ICCV 2025

CTYUN-AI at SemEval-2025 Task 1: Learning to Rank for Idiomatic Expressions SEMEVAL 2025

Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval AAAI 2025

CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning AAAI 2025

HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image ICCV 2025

DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions ICCV 2025

Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation EMNLP 2025

3D Denoisers Are Good 2D Teachers: Molecular Pretraining via Denoising and Cross-Modal Distillation AAAI 2025