conftrace_

Artificial Intelligence › Core AI ›

Vision-Language Models

159 papers

Papers per year

1

1

1

7

3

146

Papers

MuSe: Multi-Stage Graph Reasoning via Vision-Language Models ACL 2026

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images ACL 2026

EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence ACL 2026

How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study ACL 2026

Limited Linguistic Diversity in Embodied AI Datasets ACL 2026

Towards Mitigating Modality Bias in Vision-Language Models for Temporal Action Localization ACL 2026

ProgressLM: Towards Progress Reasoning in Vision-Language Models ACL 2026

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning ACL 2026

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters ACL 2026

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents ACL 2026

ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents ACL 2026

FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models ACL 2026

From Charts to Code: A Hierarchical Benchmark for Multimodal Models ACL 2026

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning ACL 2026

Current Agents Fail to Leverage World Model as Tool for Foresight ACL 2026

When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models ACL 2026

Believing without Seeing: Quality Scores for Contextualizing Vision-Language Model Explanations ACL 2026

When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias ACL 2026

VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models ACL 2026

More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage ACL 2026

Cross-Modal Taxonomic Generalization in (Vision-) Language Models ACL 2026

SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes ACL 2026

Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking ACL 2026

Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling ACL 2026

Beyond Ranking: Fine-Grained Diagnostics and Self-Improvement for MLLMs ACL 2026