conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

TIGER: A Unified Generative Model Framework for Multimodal Dialogue Response Generation COLING 2024

GLaMM: Pixel Grounding Large Multimodal Model CVPR 2024

STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics NIPS 2024

Binding Touch to Everything: Learning Unified Multimodal Tactile Representations CVPR 2024

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning CVPR 2024

MNER-MI: A Multi-image Dataset for Multimodal Named Entity Recognition in Social Media COLING 2024

Generative Multimodal Models are In-Context Learners CVPR 2024

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration NIPS 2024

NEUI at MEDIQA-M3G 2024: Medical VQA through consensus NAACL 2024

Aligning Large Multimodal Models with Factually Augmented RLHF ACL 2024

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences NIPS 2024

A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks NIPS 2024

Easy Regional Contrastive Learning of Expressive Fashion Representations NIPS 2024

MemVLT: Vision-Language Tracking with Adaptive Memory-based Prompts NIPS 2024

Source-Free Domain Adaptation with Frozen Multimodal Foundation Model CVPR 2024

On Scaling Up a Multilingual Vision and Language Model CVPR 2024

Seek Commonality but Preserve Differences: Dissected Dynamics Modeling for Multi-modal Visual RL NIPS 2024

UKnow: A Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training NIPS 2024

RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method CVPR 2024

Explaining CLIP's Performance Disparities on Data from Blind/Low Vision Users CVPR 2024

ViT-Lens: Towards Omni-modal Representations CVPR 2024

Text-conditional Attribute Alignment across Latent Spaces for 3D Controllable Face Image Synthesis CVPR 2024

DiVAS: Video and Audio Synchronization with Dynamic Frame Rates CVPR 2024

An Effective Span-based Multimodal Named Entity Recognition with Consistent Cross-Modal Alignment COLING 2024

DIEM: Decomposition-Integration Enhancing Multimodal Insights CVPR 2024