conftrace_

Wenbo Su

23 papers · 2022–2026 · 6 conferences · across top CS/AI conferences

Achievements

Jump to papers ↓

+9 more ↓

🧭 Keyword Pioneer 🌍 Conference Polyglot (5) 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (14) 🐣 Hot Topic Early Bird

🗺️ Taxonomy Completionist (14) 🧭 Keyword Pioneer 🔬 Deep Specialist (11) 🤝 Dynamic Duo (17) 🏆 Keyword Champion (2) 🗃️ Keyword Collector (90) ❓ The Questioner (2) ⚡ Prolific Year (6) 💎 Century Club (17)

Conferences

ACL (14) EMNLP (3) NIPS (3) AAAI (1) ICLR (1) NAACL (1)

Top co-authors

Bo Zheng (22) Jiaheng Liu (17) Yancheng He (9) Weixun Wang (7) Xingyuan Bu (6) Yanan Wu (6) Shilong Li (6) Ge Zhang (6) Chenchen Zhang (5) Yuanxing Zhang (5)

Keywords

large language model (14) benchmark evaluation (4) factuality evaluation (3) chinese language (3) question answering (3) reinforcement learning (2) reward modeling (2) fine-grained evaluation (2) critic model (2) long-context processing (2) multi-turn dialogue (2) domain adaptation (2) instruction following (2) scaling law (2) knowledge distillation (1) direct preference optimization (1) preference learning (1) mathematical reasoning (1) transfer learning (1) visual question answering (1)

Papers

SELECting over Tokens: Curating Pre-training Data at Scale via Token Classification ACL 2026 CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling ACL 2026 ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants ACL 2026 Read As Human: Compressing Context via Parallelizable Close Reading and Skimming ACL 2026 USB: A COMPREHENSIVE AND UNIFIED SAFETY EVALUATION BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS ACL 2026 Think-J: Learning to Think for Generative LLM-as-a-Judge AAAI 2026 See the World, Discover Knowledge: A Chinese Factuality Evaluation for Large Vision Language Models ACL 2025 Chinese SafetyQA: A Safety Short-form Factuality Benchmark for Large Language Models ACL 2025 M2RC-EVAL: Massively Multilingual Repository-level Code Completion Evaluation ACL 2025 Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? ACL 2025 Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models ACL 2025 ProgCo: Program Helps Self-Correction of Large Language Models ACL 2025 How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models EMNLP 2025 AIR: Complex Instruction Generation via Automatic Iterative Refinement EMNLP 2025 MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models ICLR 2025 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision NAACL 2025 GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models EMNLP 2024 DDK: Distilling Domain Knowledge for Efficient Large Language Models NIPS 2024 ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models ACL 2024 D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models NIPS 2024 E2-LLM: Efficient and Extreme Length Extension of Large Language Models ACL 2024 MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues ACL 2024 GBA: A Tuning-free Approach to Switch between Synchronous and Asynchronous Training for Recommendation Models NIPS 2022