visual perception

82 papers

Explore in graph

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) multimodal large language model (865) benchmark evaluation (1539) depth estimation (1540) visual reasoning (479) diffusion model (3720) computer vision (735) image segmentation (962) large multimodal model (176)

Papers

Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment AAAI 2026

Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs EACL 2026

VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use AAAI 2026

Leveraging Visual Blur Perception Characteristics for EEG Decoding AAAI 2026

AD2: Analysis and Detection of Adversarial Threats in Visual Perception for End-to-End Autonomous Driving Systems WACV 2026

Scaling Properties of Diffusion Models For Perceptual Tasks CVPR 2025

ViFT: Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models EMNLP 2025

GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning EMNLP 2025

SceneGram: Conceptualizing and Describing Tangrams in Scene Context ACL 2025

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization ICCV 2025

QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models EMNLP 2025

DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution CVPR 2025

The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights ACL 2025

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models WACV 2025

SemVink: Advancing VLMs’ Semantic Understanding of Optical Illusions via Visual Global Thinking EMNLP 2025

VProChart: Answering Chart Question Through Visual Perception Alignment Agent and Programmatic Solution Reasoning AAAI 2025

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models IJCAI 2025

Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning AAAI 2025

Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking ACL 2025

Data-Efficiently Learn Large Language Model for Universal 3D Scene Perception NAACL 2025

MS-Glance: Bio-Inspired Non-Semantic Context Vectors and their Applications in Supervising Image Reconstruction WACV 2025

VLind-Bench: Measuring Language Priors in Large Vision-Language Models NAACL 2025

Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and Understanding CVPR 2025

Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics AAAI 2025

MP-GUI: Modality Perception with MLLMs for GUI Understanding CVPR 2025