Ruochen Zhang

17 papers · 2021–2026 · 9 conferences · across top CS/AI conferences

Achievements

+10 more ↓

🐝 Cross-Pollinator (14) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌍 Conference Polyglot (8) 🏃 Academic Marathon (5)

🏃 Academic Marathon (5) 🌈 Renaissance Researcher (6) 🗺️ Taxonomy Completionist (35) 👥 Mega-Team (92) 🏆 Keyword Champion (3) ⚡ Prolific Year (5) 📈 Trend Setter ❓ The Questioner 💎 Century Club (15) 🗃️ Keyword Collector (73)

Conferences

EMNLP (7) ACL (2) NAACL (2) AAAI (1) AACL (1) COLING (1) ICLR (1) IJCNLP (1) NIPS (1)

Top co-authors

Alham Fikri Aji (9) Jan Christian Blaise Cruz (8) Genta Indra Winata (7) Samuel Cahyawijaya (7) Carsten Eickhoff (6) Holy Lovenia (5) Zheng-Xin Yong (4) Jessica Zosa Forde (4) Lintang Sutawika (4) Skyler Wang (3)

Research topics

Digital Humanities (1)

Keywords

multilingual large language model (3) multilingual language model (3) multilingual nlp (2) benchmark dataset (2) large language model (2) low-resource language (2) zero-shot prompting (2) knowledge editing (1) dataset creation (1) benchmark suite (1) prompt engineering (1) information retrieval (1) multimodal learning (1) multilingual summarization (1) cross-lingual transfer (1) word sense disambiguation (1) visual question answering (1) synthetic data generation (1) embedding similarity (1) code-mixed text (1)

Papers

Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer ACL 2026 Any2Critical: Safety-Critical Scenario Generation from Arbitrary Real-World Driving Contexts AAAI 2026 Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline EMNLP 2025 Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance EMNLP 2025 The Same but Different: Structural Similarities and Differences in Multilingual Language Modeling ICLR 2025 Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Senses NAACL 2025 Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia ACL 2025 MINERS: Multilingual Language Models as Semantic Retrievers EMNLP 2024 CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization COLING 2024 SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages EMNLP 2024 Re-Evaluating Evaluation for Multilingual Summarization EMNLP 2024 CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark NIPS 2024 Current Status of NLP in South East Asia with Insights from Multilingualism and Language Diversity IJCNLP 2023 Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages EMNLP 2023 Multilingual Large Language Models Are Not (Yet) Code-Switchers EMNLP 2023 Current Status of NLP in South East Asia with Insights from Multilingualism and Language Diversity AACL 2023 SOCCER: An Information-Sparse Discourse State Tracking Collection in the Sports Commentary Domain NAACL 2021