← Models

Deep Learning › Models ›

Vision-Language Models

685 directly classified papers

Papers per year

Papers

Active Prompt Learning in Vision Language Models CVPR 2024

Learning Multi-Dimensional Human Preference for Text-to-Image Generation CVPR 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM CVPR 2024

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning CVPR 2024

Describing Differences in Image Sets with Natural Language CVPR 2024

SonicVisionLM: Playing Sound with Vision Language Models CVPR 2024

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models CVPR 2024

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation CVPR 2024

Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding CVPR 2024

Tune-An-Ellipse: CLIP Has Potential to Find What You Want CVPR 2024

One-Shot Open Affordance Learning with Foundation Models CVPR 2024

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification CVPR 2024

CapsFusion: Rethinking Image-Text Data at Scale CVPR 2024

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding CVPR 2024

VISTA-LLAMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens CVPR 2024

Prompt Learning via Meta-Regularization CVPR 2024

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding CVPR 2024

Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection CVPR 2024

Enhancing Advanced Visual Reasoning Ability of Large Language Models EMNLP 2024

Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models EMNLP 2024

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification EMNLP 2024

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? EMNLP 2024

Autoregressive Pre-Training on Pixels and Texts EMNLP 2024

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering EMNLP 2024

RWKV-CLIP: A Robust Vision-Language Representation Learner EMNLP 2024