Caiming Xiong

242 papers · 2014–2026 · 21 conferences · across top CS/AI conferences

Achievements

+19 more ↓

🗺️ Taxonomy Completionist (28) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🌈 Renaissance Researcher (8) 🌍 Conference Polyglot (21)

🐣 Hot Topic Early Bird 🌈 Renaissance Researcher (8) 🌉 Interdisciplinary Bridge 🏠 Conference Loyalist (24) 🌟 Keyword Trendsetter Combo (4) 🤝 Dynamic Duo (68) 👑 Triple Crown 🏆 Keyword Champion 🏆 Grand Slam 👥 Mega-Team (71) 🔬 Deep Specialist (19) 🧬 Topic Evolution 🔥 Unstoppable (12) ❓ The Questioner (11) 🚀 Conference Pioneer 💎 Century Club (240) ⚡ Prolific Year (34) 🗃️ Keyword Collector (66) 📈 Trend Setter

Conferences

EMNLP (52) ACL (40) ICLR (38) NIPS (24) ICML (17) CVPR (17) NAACL (16) IJCNLP (8) EACL (6) ICCV (5) INTERSPEECH (3) ECCV (3) AAAI (3) COLING (2) UAI (2) CONLL (1) CLEAR (1) JMLR (1) AISTATS (1) PGM (1) WACV (1)

Top co-authors

Richard Socher (68) Huan Wang (44) Chien-Sheng Wu (42) Silvio Savarese (37) Yingbo Zhou (36) Shafiq Joty (24) Ran Xu (21) Dragomir Radev (21) Juan Carlos Niebles (18) Jianguo Zhang (18)

Research topics

Domain-Specific (1) Applications (1) Privacy (1)

Keywords

large language model (19) question answering (17) representation learning (12) few-shot learning (11) language model (11) contrastive learning (10) transfer learning (10) text summarization (10) text generation (9) reinforcement learning (9) natural language inference (8) semantic parsing (8) video understanding (7) neural network (7) dialogue system (7) unsupervised learning (6) retrieval-augmented generation (6) benchmark evaluation (6) weakly supervised learning (5) domain adaptation (5)

Papers

Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math ACL 2026 J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization ACL 2026 CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments NAACL 2025 Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators ICML 2025 Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction ICML 2025 Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts ICML 2025 Reward-Guided Speculative Decoding for Efficient LLM Reasoning ICML 2025 xLAM: A Family of Large Action Models to Empower AI Agent Systems NAACL 2025 Text2Data: Low-Resource Data Generation with Textual Control AAAI 2025 ThinK: Thinner Key Cache by Query-Driven Pruning ICLR 2025 FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" ICLR 2025 AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials ICLR 2025 Automatic Curriculum Expert Iteration for Reliable LLM Reasoning ICLR 2025 ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement ICLR 2025 Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents ICLR 2025 Bridging the Data Provenance Gap Across Text, Speech, and Video ICLR 2025 SiReRAG: Indexing Similar and Related Information for Multihop Reasoning ICLR 2025 BingoGuard: LLM Content Moderation Tools with Risk Levels ICLR 2025 GReaTer: Gradients Over Reasoning Makes Smaller Language Models Strong Prompt Optimizers ICLR 2025 Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows ICLR 2025 Trust but Verify: Programmatic VLM Evaluation in the Wild ICCV 2025 Benchmarking Deep Search over Heterogeneous Enterprise Data EMNLP 2025 SlackAgents: Scalable Collaboration of AI Agents in Workspaces EMNLP 2025 MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models EMNLP 2025 Demystifying Domain-adaptive Post-training for Financial LLMs EMNLP 2025 Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D EMNLP 2025 ActionStudio: A Lightweight Framework for Data and Training of Large Action Models EMNLP 2025 LATTE: Learning to Think with Vision Specialists EMNLP 2025 Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage NAACL 2025 CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models NAACL 2025 Unanswerability Evaluation for Retrieval Augmented Generation ACL 2025 PersonaBench: Evaluating AI Models on Understanding Personal Information through Accessing (Synthetic) Private User Data ACL 2025 Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI Agents ACL 2025 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding ACL 2025 LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback ACL 2025 Generative Frame Sampler for Long Video Understanding ACL 2025 Direct Judgement Preference Optimization EMNLP 2025 ViUniT: Visual Unit Tests for More Robust Visual Programming CVPR 2025 DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI EACL 2024 Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning EACL 2024 PRACT: Optimizing Principled Reasoning and Acting of LLM Agent CONLL 2024 HIVE: Harnessing Human Feedback for Instructional Visual Editing CVPR 2024 ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding CVPR 2024 Diffusion Model Alignment Using Direct Preference Optimization CVPR 2024 What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases NAACL 2024 Fair Abstractive Summarization of Diverse Perspectives NAACL 2024 Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles NAACL 2024 Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems EMNLP 2024 FOLIO: Natural Language Reasoning with First-Order Logic EMNLP 2024 Sample-Efficient Learning of POMDPs with Multiple Observations In Hindsight ICLR 2024 LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer ECCV 2024 "X-InstructBLIP: A Framework for Aligning Image, 3D, Audio, Video to LLMs and its Emergent Cross-modal Reasoning" ECCV 2024 On the Unlikelihood of D-Separation PGM 2024 MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens NIPS 2024 OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments NIPS 2024 APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets NIPS 2024 INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness NIPS 2024 Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? NIPS 2024 Consent in Crisis: The Rapid Decline of the AI Data Commons NIPS 2024 Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization ICLR 2024 Lemur: Harmonizing Natural Language and Code for Language Agents ICLR 2024 How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations ICLR 2024 Unified Training of Universal Time Series Forecasting Transformers ICML 2024 Position: TrustLLM: Trustworthiness in Large Language Models ICML 2024 ARM: Alignment with Residual Energy-Based Model NAACL 2024 FOFO: A Benchmark to Evaluate LLMs’ Format-Following Capability ACL 2024 Parameter-Efficient Detoxification with Contrastive Decoding ACL 2024 Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs ACL 2024 Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding EMNLP 2024 Causal Layering via Conditional Entropy CLEAR 2024 PRACT: Optimizing Principled Reasoning and Acting of LLM Agent EMNLP 2024 P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains EMNLP 2024 GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation ICCV 2023 Preference-grounded Token-level Guidance for Language Model Fine-tuning NIPS 2023 UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild NIPS 2023 Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection NIPS 2023 Learning to Play General-Sum Games against Multiple Boundedly Rational Agents AAAI 2023 Did You Read the Instructions? Rethinking the Effectiveness of Task Definitions in Instruction Learning ACL 2023 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation ACL 2023 SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages ACL 2023 Best-k Search Algorithm for Neural Text Generation ACL 2023 ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding CVPR 2023 What’s New? Summarizing Contributions in Scientific Literature EACL 2023 SharPT: Shared Latent Space Prompt Tuning EACL 2023 Long Document Summarization with Top-down and Bottom-up Inference EACL 2023 SummEdits: Measuring LLM Ability at Factual Reasoning Through The Lens of Summarization EMNLP 2023 Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation EMNLP 2023 HPE: Answering Complex Questions over Text by Hybrid Question Parsing and Execution EMNLP 2023 Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of Lexical Overlap in Train and Test Reference Summaries EMNLP 2023 Salespeople vs SalesBot: Exploring the Role of Educational Value in Conversational Recommender Systems EMNLP 2023 Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems ICLR 2023 Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning ICLR 2023 Binding Language Models in Symbolic Languages ICLR 2023 CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis ICLR 2023 Improved Online Conformal Prediction via Strongly Adaptive Online Learning ICML 2023 Lower Bounds for Learning in Revealing POMDPs ICML 2023 Merlion: End-to-End Machine Learning for Time Series JMLR 2023 Use All the Labels: A Hierarchical Multi-Label Contrastive Learning Framework CVPR 2022 Quiz Design Task: Helping Teachers Create Quizzes with Automated Question Generation NAACL 2022 DocQueryNet: Value Retrieval with Arbitrary Queries for Form-like Documents COLING 2022 Local calibration: metrics and recalibration UAI 2022 UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models EMNLP 2022 Field Extraction from Forms with Unlabeled Data ACL 2022 Are Pre-trained Transformers Robust in Intent Classification? A Missing Ingredient in Evaluation of Out-of-Scope Intent Detection ACL 2022 OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval ACL 2022 RNG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering ACL 2022 QAConv: Question Answering on Informative Conversations ACL 2022 DialFact: A Benchmark for Fact-Checking in Dialogue ACL 2022 ConTinTin: Continual Learning from Task Instructions ACL 2022 QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization NAACL 2022 CTRLsum: Towards Generic Controllable Text Summarization EMNLP 2022 Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge Base and Database EMNLP 2022 Improving Factual Consistency in Summarization with Compression-Based Post-Editing EMNLP 2022 Modeling Multi-hop Question Answering as Single Sequence Prediction ACL 2022 SPE: Symmetrical Prompt Enhancement for Fact Probing EMNLP 2022 Discord Questions: A Computational Approach To Diversity Analysis in News Coverage EMNLP 2022 Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual Understanding With Multilingual Language Models EMNLP 2022 BOOKSUM: A Collection of Datasets for Long-form Narrative Summarization EMNLP 2022 Numerical Correlation in Text EMNLP 2022 Near-Negative Distinction: Giving a Second Life to Human Evaluation Datasets EMNLP 2022 [CASPI] Causal-aware Safe Policy Improvement for Task-oriented Dialogue ACL 2022 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ICML 2022 Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization NIPS 2022 Policy Optimization for Markov Games: Unified Framework and Faster Convergence NIPS 2022 Efficient and Differentiable Conformal Prediction with General Function Classes ICLR 2022 MixQG: Neural Question Generation with Mixed Answer Types NAACL 2022 Open Vocabulary Object Detection with Pseudo Bounding-Box Labels ECCV 2022 A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis NAACL 2022 Controllable Abstractive Dialogue Summarization with Sketch Supervision IJCNLP 2021 DocNLI: A Large-scale Dataset for Document-level Natural Language Inference IJCNLP 2021 BatchMixup: Improving Training by Interpolating Hidden States of the Entire Mini-batch IJCNLP 2021 Unsupervised Out-of-Domain Detection via Pre-trained Transformers IJCNLP 2021 Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning NIPS 2021 Deep Verifier Networks: Verification of Deep Discriminative Models with Deep Generative Models AAAI 2021 GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing ICLR 2021 CoCo: Controllable Counterfactuals for Evaluating Dialogue State Trackers ICLR 2021 Prototypical Contrastive Learning of Unsupervised Representations ICLR 2021 BERTology Meets Biology: Interpreting Attention in Protein Language Models ICLR 2021 Representation Learning for Sequence Data with Deep Autoencoding Predictive Components ICLR 2021 MoPro: Webly Supervised Learning with Momentum Prototypes ICLR 2021 Joint Energy-based Model Training for Better Calibrated Natural Language Understanding Models EACL 2021 Structured Scene Memory for Vision-Language Navigation CVPR 2021 Task similarity aware meta learning: theory-inspired improvement on MAML UAI 2021 Controllable Abstractive Dialogue Summarization with Sketch Supervision ACL 2021 DocNLI: A Large-scale Dataset for Document-level Natural Language Inference ACL 2021 BatchMixup: Improving Training by Interpolating Hidden States of the Entire Mini-batch ACL 2021 Unsupervised Out-of-Domain Detection via Pre-trained Transformers ACL 2021 Unsupervised Paraphrasing with Pretrained Language Models EMNLP 2021 FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging EMNLP 2021 Dense Hierarchical Retrieval for Open-domain Question Answering EMNLP 2021 Few-Shot Intent Classification by Gauging Entailment Relationship Between Utterance and Semantic Label EMNLP 2021 Proposal Learning for Semi-Supervised Object Detection WACV 2021 Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization ICML 2021 Don’t Just Blame Over-parametrization for Over-confidence: Theoretical Analysis of Calibration in Binary Classification ICML 2021 How Important is the Train-Validation Split in Meta-Learning? ICML 2021 Align before Fuse: Vision and Language Representation Learning with Momentum Distillation NIPS 2021 Evaluating State-of-the-Art Classification Models Against Bayes Optimality NIPS 2021 A Theory-Driven Self-Labeling Refinement Method for Contrastive Representation Learning NIPS 2021 WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos CVPR 2021 Understanding the Under-Coverage Bias in Uncertainty Estimation NIPS 2021 Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games NIPS 2021 Learning From Noisy Data With Robust Representation Learning ICCV 2021 CoMatch: Semi-Supervised Learning With Contrastive Graph Regularization ICCV 2021 SCRIPT: Self-Critic PreTraining of Transformers NAACL 2021 Learning to Synthesize Data for Semantic Parsing NAACL 2021 DART: Open-Domain Structured Data Record to Text Generation NAACL 2021 Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition INTERSPEECH 2021 Towards Understanding Hierarchical Learning: Benefits of Neural Representations NIPS 2020 TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue EMNLP 2020 Discern: Discourse-Aware Entailment Reasoning Network for Conversational Machine Reading EMNLP 2020 VD-BERT: A Unified Vision and Dialog Transformer with BERT EMNLP 2020 Probing Task-Oriented Dialogue Representation from Language Models EMNLP 2020 Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference EMNLP 2020 Simple Data Augmentation with the Mask Token Improves Domain Adaptation for Dialog Act Tagging EMNLP 2020 The Thieves on Sesame Street are Polyglots - Extracting Multilingual Models from Monolingual APIs EMNLP 2020 Universal Natural Language Processing with Limited Annotations: Try Few-shot Textual Entailment as a Start EMNLP 2020 Evaluating the Factual Consistency of Abstractive Text Summarization EMNLP 2020 Composed Variational Natural Language Generation for Few-shot Intents EMNLP 2020 Improving Limited Labeled Dialogue State Tracking with Self-Supervision EMNLP 2020 Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing EMNLP 2020 Towards Theoretically Understanding Why Sgd Generalizes Better Than Adam in Deep Learning NIPS 2020 Find or Classify? Dual Strategy for Slot-Value Predictions on Multi-Domain Dialog State Tracking COLING 2020 Assessing Local Generalization Capability in Deep Models AISTATS 2020 Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering ICLR 2020 Theory-Inspired Path-Regularized Differential Network Architecture Search NIPS 2020 Online Structured Meta-learning NIPS 2020 Sketch-Fill-A-R: A Persona-Grounded Chit-Chat Generation Framework ACL 2020 Photon: A Robust Cross-Domain Text-to-SQL System ACL 2020 ESPRIT: Explaining Solutions to Physical Reasoning Tasks ACL 2020 Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation ACL 2020 ERASER: A Benchmark to Evaluate Rationalized NLP Models ACL 2020 Explicit Memory Tracker with Coarse-to-Fine Reasoning for Conversational Machine Reading ACL 2020 Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills ICML 2020 An Investigation of Phone-Based Subword Units for End-to-End Speech Recognition INTERSPEECH 2020 Learning From Noisy Anchors for One-Stage Object Detection CVPR 2020 A Closer Look at Deep Learning Heuristics: Learning rate restarts, Warmup and Distillation ICLR 2019 Augmented Cyclic Adversarial Learning for Low Resource Domain Adaptation ICLR 2019 Self-Monitoring Navigation Agent via Auxiliary Progress Estimation ICLR 2019 Neural Text Summarization: A Critical Evaluation IJCNLP 2019 WSLLN:Weakly Supervised Natural Language Localization Networks IJCNLP 2019 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases IJCNLP 2019 Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions IJCNLP 2019 Competitive experience replay ICLR 2019 Global-to-local Memory Pointer Networks for Task-Oriented Dialogue ICLR 2019 Keeping Your Distance: Solving Sparse Reward Tasks Using Self-Balancing Shaped Rewards NIPS 2019 StartNet: Online Detection of Action Start in Untrimmed Videos ICCV 2019 BERT is Not an Interlingua and the Bias of Tokenization EMNLP 2019 The Regretful Agent: Heuristic-Aided Navigation Through Progress Estimation CVPR 2019 Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions EMNLP 2019 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases EMNLP 2019 WSLLN:Weakly Supervised Natural Language Localization Networks EMNLP 2019 Neural Text Summarization: A Critical Evaluation EMNLP 2019 AdaFrame: Adaptive Frame Selection for Fast Video Recognition CVPR 2019 Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting ICML 2019 Taming MAML: Efficient unbiased meta-reinforcement learning ICML 2019 On the Generalization Gap in Reparameterizable Reinforcement Learning ICML 2019 Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems ACL 2019 SParC: Cross-Domain Semantic Parsing in Context ACL 2019 Explain Yourself! Leveraging Language Models for Commonsense Reasoning ACL 2019 A High-Quality Multilingual Dataset for Structured Documentation Translation ACL 2019 LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition NIPS 2019 Coarse-grain Fine-grain Coattention Network for Multi-evidence Question Answering ICLR 2019 Non-Autoregressive Neural Machine Translation ICLR 2018 A Multi-Discriminator CycleGAN for Unsupervised Non-Parallel Speech Domain Adaptation INTERSPEECH 2018 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning ICLR 2018 Efficient and Robust Question Answering from Minimal Context over Documents ACL 2018 Global-Locally Self-Attentive Encoder for Dialogue State Tracking ACL 2018 DCN+: Mixed Objective And Deep Residual Coattention for Question Answering ICLR 2018 Interpretable Counting for Visual Question Answering ICLR 2018 End-to-End Dense Video Captioning With Masked Transformer CVPR 2018 Improving Abstraction in Text Summarization EMNLP 2018 Multi-Hop Knowledge Graph Reasoning with Reward Shaping EMNLP 2018 A Deep Reinforced Model for Abstractive Summarization ICLR 2018 Learned in Translation: Contextualized Word Vectors NIPS 2017 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks EMNLP 2017 Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning CVPR 2017 Recognizing Car Fluents From Video CVPR 2016 Grounded Semantic Role Labeling NAACL 2016 Dynamic Memory Networks for Visual and Textual Question Answering ICML 2016 Joint Action Recognition and Pose Estimation From Video CVPR 2015 Can Humans Fly? Action Understanding With Multiple Classes of Actors CVPR 2015 Actionness Ranking with Lattice Conditional Ordinal Random Fields CVPR 2014