Kaihang Pan

12 papers · 2023–2026 · 7 conferences · across top CS/AI conferences

Achievements

+8 more ↓

🐝 Cross-Pollinator (12) 🌈 Renaissance Researcher (5) 🌍 Conference Polyglot (6) 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (20)

🗺️ Taxonomy Completionist (20) 👑 Triple Crown 👥 Mega-Team (32) 🏆 Grand Slam 🤝 Dynamic Duo (11) ⚡ Prolific Year (6) ❓ The Questioner 💎 Century Club (11)

Conferences

CVPR (3) ICML (3) NIPS (2) AAAI (1) EMNLP (1) ICCV (1) ICLR (1)

Top co-authors

Siliang Tang (12) Juncheng Li (12) Hanwang Zhang (7) Yueting Zhuang (6) Minghe Gao (5) Qifan Yu (5) Hao Fei (4) Tat-Seng Chua (4) Zhiqi Ge (4) Wei Chow (3)

Keywords

multimodal large language model (5) image generation (2) multimodal learning (2) domain generalization (1) chain-of-thought reasoning (1) generative training (1) knowledge editing (1) image editing (1) text-to-image generation (1) instruction following (1) scene graph (1) discriminative training (1) diffusion model (1) semantic space (1) dynamic time warping (1) multi-modal learning (1) vision language model (1) multi-modal large language model (1) vision-language model (1) self-supervised learning (1)

Papers

Evolving Generalist Virtual Agents with Generative and Associative Memory AAAI 2026 STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training CVPR 2025 Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens CVPR 2025 AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea CVPR 2025 Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining ICCV 2025 What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities ICML 2025 On Path to Multimodal Generalist: General-Level and General-Bench ICML 2025 Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions ICLR 2024 Auto-Encoding Morph-Tokens for Multimodal LLM ICML 2024 Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration NIPS 2024 Unified Generative and Discriminative Training for Multi-modal Large Language Models NIPS 2024 Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization for Few-shot Generalization EMNLP 2023