conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

Modality-Fair Preference Optimization for Trustworthy MLLM Alignment IJCAI 2025

Just KIDDIN’ : Knowledge Infusion and Distillation for Detection of INdecent Memes ACL 2025

Words or Vision: Do Vision-Language Models Have Blind Faith in Text? CVPR 2025

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing CVPR 2025

VideoGLaMM : A Large Multimodal Model for Pixel-Level Visual Grounding in Videos CVPR 2025

MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments CVPR 2025

Online Video Understanding: OVBench and VideoChat-Online CVPR 2025

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding CVPR 2025

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment CVPR 2025

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation CVPR 2025

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts CVPR 2025

Fired_from_NLP@DravidianLangTech 2025: A Multimodal Approach for Detecting Misogynistic Content in Tamil and Malayalam Memes NAACL 2025

Understanding Emotional Body Expressions via Large Language Models AAAI 2025

Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information AAAI 2025

MASS: Overcoming Language Bias in Image-Text Matching AAAI 2025

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution CVPR 2025

CUET_Novice@DravidianLangTech 2025: A Multimodal Transformer-Based Approach for Detecting Misogynistic Memes in Malayalam Language NAACL 2025

If I feel smart, I will do the right thing: Combining Complementary Multimodal Information in Visual Language Models COLING 2025

From Traits to Empathy: Personality-Aware Multimodal Empathetic Response Generation COLING 2025

teamiic@DravidianLangTech2025-NAACL 2025: Transformer-Based Multimodal Feature Fusion for Misogynistic Meme Detection in Low-Resource Dravidian Language NAACL 2025

A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation COLING 2025

Referring to Any Person ICCV 2025

OVEL: Online Video Entity Linking COLING 2025

One_by_zero@DravidianLangTech 2025: A Multimodal Approach for Misogyny Meme Detection in Malayalam Leveraging Visual and Textual Features NAACL 2025

What Is Missing in Multilingual Visual Reasoning and How to Fix It NAACL 2025