conftrace_

Artificial Intelligence › Core AI ›

Foundation Models

4,845 papers

Papers per year

Papers

DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning ICCV 2025

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining ICCV 2025

SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications ICCV 2025

RoboPearls: Editable Video Simulation for Robot Manipulation ICCV 2025

Vision-Language Models Can't See the Obvious ICCV 2025

FE-CLIP: Frequency Enhanced CLIP Model for Zero-Shot Anomaly Detection and Segmentation ICCV 2025

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models ICCV 2025

SITE: towards Spatial Intelligence Thorough Evaluation ICCV 2025

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation ICCV 2025

DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation ICCV 2025

Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding ICCV 2025

Information Density Principle for MLLM Benchmarks ICCV 2025

Leveraging Panoptic Scene Graph for Evaluating Fine-Grained Text-to-Image Generation ICCV 2025

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation ICCV 2025

VisNumBench: Evaluating Number Sense of Multimodal Large Language Models ICCV 2025

FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection ICCV 2025

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting ICCV 2025

Rethinking DPO-style Diffusion Aligning Frameworks ICCV 2025

Latte: Collaborative Test-Time Adaptation of Vision-Language Models in Federated Learning ICCV 2025

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization ICCV 2025

HPSv3: Towards Wide-Spectrum Human Preference Score ICCV 2025

GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields ICCV 2025

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs ICCV 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models ICCV 2025

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models ICCV 2025