vision-language alignment

69 papers

Explore in graph

Also known as

VLA VL

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) contrastive learning (3979) zero-shot learning (3637) representation learning (6174) multimodal large language model (865) multi-modal learning (1276) image-text alignment (109) large language model (12755) image captioning (728)

Papers

KIA: Knowledge-Guided Implicit Vision-Language Alignment for Chest X-Ray Report Generation COLING 2025

DDPA-3DVG: Vision-Language Dual-Decoupling and Progressive Alignment for 3D Visual Grounding IJCAI 2025

CompCap: Improving Multimodal Large Language Models with Composite Captions ICCV 2025

Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation ICCV 2025

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning ICCV 2025

Gaze-Language Alignment for Zero-Shot Prediction of Visual Search Targets from Human Gaze Scanpaths ICCV 2025

Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLMs EMNLP 2025

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment CVPR 2025

Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D CVPR 2025

DH-Set: Improving Vision-Language Alignment with Diverse and Hybrid Set-Embeddings Learning CVPR 2025

ParGo: Bridging Vision-Language with Partial and Global Views AAAI 2025

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence ACL 2025

HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models ACL 2025

It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data CVPR 2025

Weakly Supervised Open-Vocabulary Object Detection AAAI 2024

CLIM: Contrastive Language-Image Mosaic for Region Representation AAAI 2024

Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA AAAI 2024

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs ACL 2024

Learning to Segment Referred Objects from Narrated Egocentric Videos CVPR 2024

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks CVPR 2024

Exploring Region-Word Alignment in Built-in Detector for Open-Vocabulary Object Detection CVPR 2024

Prompt-Driven Referring Image Segmentation with Instance Contrasting CVPR 2024

Do Vision and Language Encoders Represent the World Similarly? CVPR 2024

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions CVPR 2024

CLIB-FIQA: Face Image Quality Assessment with Confidence Calibration CVPR 2024