Xuehai He

17 papers · 2021–2026 · 12 conferences · across top CS/AI conferences

Achievements

+10 more ↓

🏃 Academic Marathon (5) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌍 Conference Polyglot (12) 🐝 Cross-Pollinator (7)

🐝 Cross-Pollinator (7) 🌈 Renaissance Researcher (6) 🗺️ Taxonomy Completionist (32) 🏆 Grand Slam 🧬 Topic Evolution ❓ The Questioner (2) ⚡ Prolific Year (5) 🗃️ Keyword Collector (63) 💎 Century Club (17) 🔥 Unstoppable (6)

Conferences

ACL (3) ICLR (3) IJCNLP (2) AAAI (1) CVPR (1) EACL (1) EMNLP (1) ICCV (1) ICML (1) NAACL (1) NIPS (1) WACV (1)

Top co-authors

Xin Eric Wang (8) William Yang Wang (5) Pengtao Xie (4) Weixi Feng (4) Eric Xing (4) Yichen Zhang (4) Kaizhi Zheng (3) Varun Jampani (3) Tsu-Jui Fu (3) Xin Wang (3)

Keywords

vision-language model (3) question answering (2) dialog generation (2) multimodal learning (2) visual question answering (2) multi-task learning (2) few-shot learning (2) pathology imaging (2) vision language model (2) model evaluation (1) event understanding (1) video generation (1) in-context learning (1) knowledge distillation (1) transfer learning (1) compositional generalization (1) medical image analysis (1) medical imaging (1) large multimodal model (1) text-to-image generation (1)

Papers

Interleaved Vision-and-Language Generation via Generative Voken WACV 2026 VLM4D: Towards Spatiotemporal Awareness in Vision Language Models ICCV 2025 Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA ACL 2025 Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation CVPR 2025 EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing ICLR 2025 MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos ICLR 2025 ComCLIP: Training-Free Compositional Image and Text Matching NAACL 2024 Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning ICML 2024 Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis ICLR 2023 Parameter-Efficient Model Adaptation for Vision Transformers AAAI 2023 Multimodal Graph Transformer for Multimodal Question Answering EACL 2023 LayoutGPT: Compositional Visual Planning and Generation with Large Language Models NIPS 2023 CPL: Counterfactual Prompt Learning for Vision and Language Models EMNLP 2022 Towards Visual Question Answering on Pathology Images ACL 2021 On the Generation of Medical Dialogs for COVID-19 ACL 2021 Towards Visual Question Answering on Pathology Images IJCNLP 2021 On the Generation of Medical Dialogs for COVID-19 IJCNLP 2021