conftrace_

Artificial Intelligence › Core AI ›

Vision-Language Models

159 papers

Papers per year

1

1

1

7

3

146

Papers

AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation ACL 2026

Aligned Multi-View Scripts for Universal Chart-to-Code Generation ACL 2026

GeoArena: Evaluating Open-World Geographic Reasoning in Large Vision-Language Models ACL 2026

Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding ACL 2026

Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring ACL 2026

Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset ACL 2026

Counteracting the Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing ACL 2026

MIRTH: Mutual-Information Reasoning with Temporal Hubs for Vision-Language-Action Agents ACL 2026

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agents ACL 2026

See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers ACL 2026

CamoQuery: Language-Guided Reasoning Camouflaged Object Segmentation ACL 2026

PAR: Training-Free Positional Perturbation and Attention Recycling for Faithful OCR ACL 2026

VIB-Probe: Detecting and Mitigating Hallucinations in Vision-Language Models via Variational Information Bottleneck ACL 2026

From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation ACL 2026

ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints ACL 2026

Looking Beyond the One: Operationalizing and Eliciting Visual Ambiguity in VLLMs ACL 2026

Ascending the Infinite Ladder: Benchmarking Spatial Deformation Reasoning in Vision-Language Models ACL 2026

Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement ACL 2026

CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution ACL 2026

VLN-NF: Feasibility-Aware Vision-and-Language Navigation with False-Premise Instructions ACL 2026

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding ACL 2026

VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval ACL 2026

Beyond Surface Features: Advancing Medical Vision-Language Alignment via Dynamic Evidence-Guided Preference Optimization ACL 2026

AIM-CoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning ACL 2026

SAM3-I: Segment Anything with Instructions ACL 2026