← Models

Deep Learning › Models ›

Vision-Language Models

685 directly classified papers

Papers per year

Papers

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers CVPR 2024

Efficient Test-Time Adaptation of Vision-Language Models CVPR 2024

RegionGPT: Towards Region Understanding Vision Language Model CVPR 2024

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning CVPR 2024

MAFA: Managing False Negatives for Vision-Language Pre-training CVPR 2024

GLaMM: Pixel Grounding Large Multimodal Model CVPR 2024

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models CVPR 2024

FFF: Fixing Flawed Foundations in Contrastive Pre-Training Results in Very Strong Vision-Language Models CVPR 2024

Anchor-based Robust Finetuning of Vision-Language Models CVPR 2024

Segment and Caption Anything CVPR 2024

Making Visual Sense of Oracle Bones for You and Me CVPR 2024

Universal Segmentation at Arbitrary Granularity with Language Instruction CVPR 2024

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model CVPR 2024

PairAug: What Can Augmented Image-Text Pairs Do for Radiology? CVPR 2024

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback CVPR 2024

Towards More Unified In-context Visual Understanding CVPR 2024

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks CVPR 2024

Language-only Training of Zero-shot Composed Image Retrieval CVPR 2024

The Devil is in the Fine-Grained Details: Evaluating Open-Vocabulary Object Detectors for Fine-Grained Understanding CVPR 2024

Pixel-Aligned Language Model CVPR 2024

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models CVPR 2024

Sieve: Multimodal Dataset Pruning using Image Captioning Models CVPR 2024

Explaining CLIP's Performance Disparities on Data from Blind/Low Vision Users CVPR 2024

Can't Make an Omelette Without Breaking Some Eggs: Plausible Action Anticipation Using Large Video-Language Models CVPR 2024

Non-autoregressive Sequence-to-Sequence Vision-Language Models CVPR 2024