Artificial Intelligence › Core AI ›

Foundation Models

4845 directly classified papers

Papers per year

Papers

OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation ICCV 2025

MorphoGen: Efficient Unconditional Generation of Long-Range Projection Neuronal Morphology via a Global-to-Local Framework ICCV 2025

CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance ICCV 2025

Radiant Foam: Real-Time Differentiable Ray Tracing ICCV 2025

CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy ICCV 2025

VisionMath: Vision-Form Mathematical Problem-Solving ICCV 2025

Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs ICCV 2025

Integrating Visual Interpretation and Linguistic Reasoning for Geometric Problem Solving ICCV 2025

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning ICCV 2025

HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding ICCV 2025

MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization ICCV 2025

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization ICCV 2025

GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields ICCV 2025

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs ICCV 2025

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models ICCV 2025

Zero-Shot Vision Encoder Grafting via LLM Surrogates ICCV 2025

ScanEdit: Hierarchically-Guided Functional 3D Scan Editing ICCV 2025

FrameFusion: Combining Similarity and Importance for Video Token Reduction on Large Vision Language Models ICCV 2025

AURELIA: Test-time Reasoning Distillation in Audio-Visual LLMs ICCV 2025

HOLa: Zero-Shot HOI Detection with Low-Rank Decomposed VLM Feature Adaptation ICCV 2025

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation ICCV 2025

A Token-level Text Image Foundation Model for Document Understanding ICCV 2025

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding ICCV 2025

Generalized Few-Shot Point Cloud Segmentation via LLM-Assisted Hyper-Relation Matching ICCV 2025

Token Activation Map to Visually Explain Multimodal LLMs ICCV 2025