Pengfei Liu

109 papers · 2014–2026 · 14 conferences · across top CS/AI conferences

Achievements

+18 more ↓

🧭 Keyword Pioneer 🌍 Conference Polyglot (14) 🗺️ Taxonomy Completionist (18) 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (11)

🐣 Hot Topic Early Bird 🗺️ Taxonomy Completionist (18) 🧭 Keyword Pioneer 🏠 Conference Loyalist (28) 🌟 Keyword Trendsetter Combo (4) 🏆 Grand Slam 🏆 Keyword Champion (2) 🤝 Dynamic Duo (24) 👥 Mega-Team (35) 🔬 Deep Specialist (18) 🧬 Topic Evolution 📈 Trend Setter 🚀 Conference Pioneer ⚡ Prolific Year (6) 🗃️ Keyword Collector (362) 💎 Century Club (105) 🔥 Unstoppable (7) ❓ The Questioner (9)

Conferences

ACL (30) EMNLP (28) AAAI (11) NAACL (11) NIPS (7) IJCAI (5) IJCNLP (5) ICLR (3) ICML (3) INTERSPEECH (2) COLING (1) EACL (1) ECCV (1) SEMEVAL (1)

Top co-authors

Xipeng Qiu (24) Xuanjing Huang (23) Graham Neubig (20) Jinlan Fu (14) Yixin Liu (13) Weizhe Yuan (9) Shichao Sun (8) Yang Xiao (8) Wenjie Li (6) Xuefeng Li (6)

Keywords

large language model (24) neural network (11) text generation (10) language model (8) text summarization (8) abstractive summarization (6) sequence labeling (6) transfer learning (6) named entity recognition (6) evaluation metric (5) benchmark evaluation (5) model evaluation (5) text classification (5) zero-shot learning (5) graph neural network (5) extractive summarization (5) fine-grained evaluation (4) mathematical reasoning (4) contrastive learning (4) multi-task learning (4)

Papers

Efficient Preference Alignment via Pareto Exploration (Student Abstract) AAAI 2026 AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts ACL 2026 SciPedia: Unlocking the Value of Scientific Data for Pre-training ACL 2026 SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling AAAI 2026 RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance AAAI 2025 Understanding Reference Policies in Direct Preference Optimization NAACL 2025 Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability NAACL 2025 Evaluating Mathematical Reasoning Beyond Accuracy AAAI 2025 Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale ICML 2025 DavIR: Data Selection via Implicit Reward for Large Language Models ACL 2025 Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States ACL 2025 OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance ICML 2025 Progress or Regress? Self-Improvement Reversal in Post-training ICLR 2025 Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model ICLR 2025 DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments EMNLP 2025 Knowledge-Centric Hallucination Detection EMNLP 2024 Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization NAACL 2024 On Learning to Summarize with Large Language Models as References NAACL 2024 GPTScore: Evaluate as You Desire NAACL 2024 Weak-to-Strong Reasoning EMNLP 2024 OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI NIPS 2024 RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation NIPS 2024 MathPile: A Billion-Token-Scale Pretraining Corpus for Math NIPS 2024 DocLens: Multi-aspect Fine-grained Evaluation for Medical Text Generation ACL 2024 Dissecting Human and LLM Preferences ACL 2024 MoPS: Modular Story Premise Synthesis for Open-Ended Automatic Story Generation ACL 2024 Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization ACL 2024 LLMCrit: Teaching Large Language Models to Use Criteria ACL 2024 The Critique of Critique ACL 2024 InFoBench: Evaluating Instruction Following Ability in Large Language Models ACL 2024 Data Contamination Report from the 2024 CONDA Shared Task ACL 2024 SAFETY-J: Evaluating Safety with Critique EMNLP 2024 Reformatted Alignment EMNLP 2024 OpenResearcher: Unleashing AI for Accelerated Scientific Research EMNLP 2024 Alignment for Honesty NIPS 2024 ECON: On the Detection and Resolution of Evidence Conflicts EMNLP 2024 FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in LLMs EMNLP 2024 Generative Judge for Evaluating Alignment ICLR 2024 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation ACL 2023 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions ACL 2023 Multi-Dimensional Evaluation of Text Summarization with In-Context Learning ACL 2023 Improving Factuality of Abstractive Summarization via Contrastive Reward Learning ACL 2023 FELM: Benchmarking Factuality Evaluation of Large Language Models NIPS 2023 LIMA: Less Is More for Alignment NIPS 2023 Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation EMNLP 2023 PAL: Program-aided Language Models ICML 2023 LLM-driven Instruction Following: Progresses and Concerns EMNLP 2023 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics EMNLP 2023 PunCantonese: A Benchmark Corpus for Low-Resource Cantonese Punctuation Restoration from Speech Transcripts INTERSPEECH 2023 GlobalBench: A Benchmark for Global Progress in Natural Language Processing EMNLP 2023 BRIO: Bringing Order to Abstractive Summarization ACL 2022 Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification NAACL 2022 I²R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation IJCAI 2022 Towards a Unified Multi-Dimensional Evaluator for Text Generation EMNLP 2022 DataLab: A Platform for Data Analysis and Intervention ACL 2022 KGxBoard: Explainable and Interactive Leaderboard for Evaluation of Knowledge Graph Completion Models EMNLP 2022 Polyglot Prompt: Multilingual Multitask Prompt Training EMNLP 2022 KID-Review: Knowledge-Guided Scientific Review Generation with Oracle Pre-training AAAI 2022 Larger-Context Tagging: When and Why Does It Work? NAACL 2021 CitationIE: Leveraging the Citation Graph for Scientific Information Extraction ACL 2021 SpanNER: Named Entity Re-/Recognition as Span Prediction ACL 2021 SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization ACL 2021 ExplainaBoard: An Explainable Leaderboard for NLP ACL 2021 How well do you know your summarization datasets? ACL 2021 Towards More Fine-grained and Reliable NLP Performance Prediction EACL 2021 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation EMNLP 2021 Are Factuality Checkers Reliable? Adversarial Meta-evaluation of Factuality in Summarization EMNLP 2021 CitationIE: Leveraging the Citation Graph for Scientific Information Extraction IJCNLP 2021 SpanNER: Named Entity Re-/Recognition as Span Prediction IJCNLP 2021 SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization IJCNLP 2021 ExplainaBoard: An Explainable Leaderboard for NLP IJCNLP 2021 How well do you know your summarization datasets? IJCNLP 2021 RefSum: Refactoring Neural Summarization NAACL 2021 BARTScore: Evaluating Generated Text as Text Generation NIPS 2021 Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa NAACL 2021 GSum: A General Framework for Guided Neural Abstractive Summarization NAACL 2021 Multi-Scale Self-Attention for Text Classification AAAI 2020 RethinkCWS: Is Chinese Word Segmentation a Solved Task? EMNLP 2020 Interpretable Multi-dataset Evaluation for Named Entity Recognition EMNLP 2020 Metrics also Disagree in the Low Scoring Range: Revisiting Summarization Evaluation Metrics COLING 2020 Heterogeneous Graph Neural Networks for Extractive Document Summarization ACL 2020 RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving ECCV 2020 Re-evaluating Evaluation in Text Summarization EMNLP 2020 CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural Summarization Systems EMNLP 2020 Zero-Shot Text-to-SQL Learning with Auxiliary Task AAAI 2020 Extractive Summarization as Text Matching ACL 2020 Rethinking Generalization of Neural Models: A Named Entity Recognition Case Study AAAI 2020 Group Gated Fusion on Attention-Based Bidirectional Alignment for Multimodal Emotion Recognition INTERSPEECH 2020 Learning Sparse Sharing Architectures for Multiple Tasks AAAI 2020 A Closer Look at Data Bias in Neural Extractive Summarization Models EMNLP 2019 TIGS: An Inference Algorithm for Text Infilling with Gradient Search ACL 2019 Star-Transformer NAACL 2019 Contextualized Non-Local Neural Networks for Sequence Learning AAAI 2019 Learning Multi-Task Communication with Message Passing for Sequence Learning AAAI 2019 Searching for Effective Neural Extractive Summarization: What Works and What’s Next ACL 2019 Idiom-Aware Compositional Distributed Semantics EMNLP 2017 Adversarial Multi-task Learning for Text Classification ACL 2017 Dynamic Compositional Neural Networks over Tree Structure IJCAI 2017 Adaptive Semantic Compositionality for Sentence Modelling IJCAI 2017 Deep Fusion LSTMs for Text Semantic Matching ACL 2016 Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network ACL 2016 Recurrent Neural Network for Text Classification with Multi-Task Learning IJCAI 2016 Modelling Interaction of Sentence Pair with Coupled-LSTMs EMNLP 2016 Deep Multi-Task Learning with Shared Memory for Text Classification EMNLP 2016 Multi-Timescale Long Short-Term Memory Neural Network for Modelling Sentences and Documents EMNLP 2015 Long Short-Term Memory Neural Networks for Chinese Word Segmentation EMNLP 2015 Learning Context-Sensitive Word Embeddings with Neural Tensor Skip-Gram Model IJCAI 2015 Fine-grained Opinion Mining with Recurrent Neural Networks and Word Embeddings EMNLP 2015 SeemGo: Conditional Random Fields Labeling and Maximum Entropy Classification for Aspect Based Sentiment Analysis SEMEVAL 2014