Wanrong Zhu

20 papers · 2019–2026 · 9 conferences · across top CS/AI conferences

Achievements

+9 more ↓

🏃 Academic Marathon (6) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌍 Conference Polyglot (9) 🐝 Cross-Pollinator (5)

🌍 Conference Polyglot (9) 🏃 Academic Marathon (6) 🌈 Renaissance Researcher (7) 🤝 Dynamic Duo (15) 🔬 Deep Specialist (11) ⚡ Prolific Year (8) 💎 Century Club (19) 🗃️ Keyword Collector (82) 🔥 Unstoppable (7)

Conferences

NIPS (4) EACL (3) EMNLP (3) AAAI (2) ACL (2) ICLR (2) NAACL (2) COLING (1) JMLR (1)

Top co-authors

William Yang Wang (15) Xin Wang (7) Yujie Lu (6) Miguel Eckstein (6) Tsu-Jui Fu (4) Weixi Feng (4) Xin Eric Wang (4) An Yan (3) Sugato Basu (3) Kazoo Sone (3)

Keywords

multimodal learning (8) in-context learning (4) text generation (3) vision-language model (2) few-shot learning (2) text-to-image generation (2) automatic evaluation (2) vision-language navigation (2) large language model (2) navigation agent (2) embodied agent (2) vision-and-language navigation (2) text summarization (1) machine translation (1) question answering (1) text-to-image synthesis (1) natural language generation (1) instruction following (1) information extraction (1) bayesian inference (1)

Papers

OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive AAAI 2026 MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos ICLR 2025 Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models ACL 2024 Multimodal Procedural Planning via Dual Text-Image Prompting EMNLP 2024 VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View AAAI 2024 Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text NIPS 2023 ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation EACL 2023 Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning NIPS 2023 LayoutGPT: Compositional Visual Planning and Generation with Large Language Models NIPS 2023 VisIT-Bench: A Dynamic Benchmark for Evaluating Instruction-Following Vision-and-Language Models NIPS 2023 Visualize Before You Write: Imagination-Guided Open-Ended Text Generation EACL 2023 Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation EMNLP 2023 Neuro-Symbolic Procedural Planning with Commonsense Prompting ICLR 2023 Beyond Sub-Gaussian Noises: Sharp Concentration Analysis for Stochastic Gradient Descent JMLR 2022 End-to-end Dense Video Captioning as Sequence Generation COLING 2022 Imagination-Augmented Natural Language Understanding NAACL 2022 Diagnosing Vision-and-Language Navigation: What Really Matters NAACL 2022 Multimodal Text Style Transfer for Outdoor Vision-and-Language Navigation EACL 2021 Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations EMNLP 2020 Texar: A Modularized, Versatile, and Extensible Toolkit for Text Generation ACL 2019