Xiaoyu Shen

59 papers · 2017–2026 · 11 conferences · across top CS/AI conferences

Achievements

+13 more ↓

🌍 Conference Polyglot (11) 🧭 Keyword Pioneer 🌈 Renaissance Researcher (5) 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (8)

🧭 Keyword Pioneer 🐝 Cross-Pollinator (5) 🌍 Conference Polyglot (11) 🤝 Dynamic Duo (20) 👥 Mega-Team (45) 🔬 Deep Specialist (14) 🧬 Topic Evolution 🏆 Keyword Champion (2) 🗃️ Keyword Collector (273) 🔥 Unstoppable (9) ⚡ Prolific Year (5) 💎 Century Club (58) ❓ The Questioner

Conferences

ACL (19) EMNLP (19) EACL (4) IJCNLP (4) COLING (3) NAACL (3) ICLR (2) ICML (2) CVPR (1) ICCV (1) INTERSPEECH (1)

Top co-authors

Hui Su (20) Dietrich Klakow (16) Dawei Zhu (13) Ernie Chang (7) Wei Zhang (7) Bill Byrne (6) Jinlan Fu (6) Gianni Barlacchi (5) Marco Del Tredici (5) Xinghao Chen (5)

Research topics

Linguistics (1) Privacy (1)

Keywords

large language model (11) text generation (6) machine translation (5) few-shot learning (5) text classification (5) data augmentation (4) multimodal large language model (4) language model (4) text summarization (3) dialogue system (3) data-to-text generation (3) low-resource language (3) question answering (3) in-context learning (3) weak supervision (2) label noise (2) word alignment (2) zero-shot learning (2) instance selection (2) response generation (2)

Papers

Natural-Language Policies to Executable Decisions: An Interpretable Large Language Model Framework ACL 2026 Context Guided Transformer Entropy Modeling for Video Compression ICCV 2025 InternLM-Law: An Open-Sourced Chinese Legal Large Language Model COLING 2025 Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices CVPR 2025 MultiConIR: Towards Multi-Condition Information Retrieval EMNLP 2025 PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks EMNLP 2025 VisiPruner: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs EMNLP 2025 Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation NAACL 2025 Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant EMNLP 2025 SkipGPT: Each Token is One of a Kind ICML 2025 Multimodal Language Models See Better When They Look Shallower EMNLP 2025 CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs ICLR 2025 HAF-RM: A Hybrid Alignment Framework for Reward Model Training ACL 2025 Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai ACL 2025 Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning ACL 2025 LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding ACL 2025 Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models ICLR 2025 From Calculation to Adjudication: Examining LLM Judges on Mathematical Reasoning Tasks ACL 2025 StableMask: Refining Causal Masking in Decoder-only Transformer ICML 2024 The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language Models EMNLP 2024 To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models EMNLP 2024 LawBench: Benchmarking Legal Knowledge of Large Language Models EMNLP 2024 Assessing “Implicit” Retrieval Robustness of Large Language Models EMNLP 2024 Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism EMNLP 2024 A Preference-driven Paradigm for Enhanced Translation with Large Language Models NAACL 2024 The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis ACL 2024 SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects EACL 2024 Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning EMNLP 2024 Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? EMNLP 2024 xPQA: Cross-Lingual Product Question Answering in 12 Languages ACL 2023 Weaker Than You Think: A Critical Look at Weakly Supervised Learning ACL 2023 Neural Ranking with Weak Supervision for Open-Domain Question Answering : A Survey EACL 2023 Meta Self-Refinement for Robust Learning with Weak Supervision EACL 2023 Product Answer Generation from Heterogeneous Sources: A New Benchmark and Best Practices ACL 2022 RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining ACL 2022 semiPQA: A Study on Product Question Answering over Semi-structured Data ACL 2022 From Rewriting to Remembering: Common Ground for Conversational QA Models ACL 2022 FocusQA: Open-Domain Question Answering with a Context in Focus EMNLP 2022 Logical Fallacy Detection EMNLP 2022 A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation NAACL 2022 Neural Data-to-Text Generation with LM-based Text Augmentation EACL 2021 Preventing Author Profiling through Zero-Shot Multilingual Back-Translation EMNLP 2021 On Training Instance Selection for Few-Shot Neural Text Generation IJCNLP 2021 On Training Instance Selection for Few-Shot Neural Text Generation ACL 2021 Neural Data-to-Text Generation via Jointly Learning the Segmentation and Correspondence ACL 2020 DART: A Lightweight Quality-Suggestive Data-to-Text Annotation Tool COLING 2020 Data Augmentation for Multiclass Utterance Classification – A Systematic Study COLING 2020 MovieChats: Chat like Humans in a Closed Domain EMNLP 2020 Diversifying Dialogue Generation with Non-Conversational Text ACL 2020 Improving Multi-turn Dialogue Modelling with Utterance ReWriter ACL 2019 Unsupervised Rewriter for Multi-Sentence Compression ACL 2019 Select and Attend: Towards Controllable Content Selection in Text Generation IJCNLP 2019 Improving Latent Alignment in Text Summarization by Generalizing the Pointer Generator IJCNLP 2019 Select and Attend: Towards Controllable Content Selection in Text Generation EMNLP 2019 Improving Latent Alignment in Text Summarization by Generalizing the Pointer Generator EMNLP 2019 NEXUS Network: Connecting the Preceding and the Following in Dialogue Generation EMNLP 2018 Estimation of Gap Between Current Language Models and Human Performance INTERSPEECH 2017 A Conditional Variational Framework for Dialog Generation ACL 2017 DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset IJCNLP 2017