Genta Indra Winata

65 papers · 2017–2026 · 12 conferences · across top CS/AI conferences

Achievements

+15 more ↓

🐣 Hot Topic Early Bird 🧭 Keyword Pioneer 🗺️ Taxonomy Completionist (21) 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (12)

🌍 Conference Polyglot (12) 🗺️ Taxonomy Completionist (21) 🧭 Keyword Pioneer 🌟 Keyword Trendsetter Combo (3) 🔬 Deep Specialist (25) 🏆 Keyword Champion (3) 👥 Mega-Team (92) 🤝 Dynamic Duo (37) 💎 Century Club (62) ❓ The Questioner (4) 🗃️ Keyword Collector (232) ⚡ Prolific Year (9) 📈 Trend Setter 🚀 Conference Pioneer 🔥 Unstoppable (9)

Conferences

ACL (20) EMNLP (18) IJCNLP (8) AACL (4) ICLR (3) INTERSPEECH (3) NAACL (3) EACL (2) AAAI (1) COLING (1) CONLL (1) SEMEVAL (1)

Top co-authors

Pascale Fung (37) Zihan Liu (24) Samuel Cahyawijaya (23) Andrea Madotto (17) Alham Fikri Aji (15) Zhaojiang Lin (15) Peng Xu (13) Ayu Purwarianti (11) Yan Xu (10) Fajri Koto (8)

Research topics

Linguistics (1) Digital Humanities (1)

Keywords

cross-lingual transfer (16) named entity recognition (9) multilingual nlp (9) language model (8) low-resource language (7) transfer learning (7) dialogue system (6) domain adaptation (6) multilingual model (6) slot filling (6) large language model (6) intent detection (5) zero-shot learning (5) task-oriented dialogue (4) machine translation (4) part-of-speech tagging (4) pre-trained language model (4) few-shot learning (3) instruction tuning (3) multi-task learning (3)

Papers

Routing with Generated Data: Annotation-Free LLM Skill Estimation and Expert Selection ACL 2026 CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data ACL 2026 Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling ACL 2026 MetaMetrics: Calibrating Metrics for Generation Tasks Using Human Preferences ICLR 2025 Language Surgery in Multilingual Large Language Models EMNLP 2025 Entropy2Vec: Crosslingual Language Modeling Entropy as End-to-End Learnable Language Representations EMNLP 2025 ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models NAACL 2025 MMTEB: Massive Multilingual Text Embedding Benchmark ICLR 2025 IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian AACL 2025 What Causes Knowledge Loss in Multilingual Language Models? ACL 2025 WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines NAACL 2025 RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization ICLR 2025 IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian IJCNLP 2025 Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia ACL 2025 Do Language Models Understand Honorific Systems in Javanese? ACL 2025 Towards Efficient and Robust VQA-NLE Data Generation with Large Vision-Language Models COLING 2025 LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization EMNLP 2024 Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages ACL 2024 SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages EMNLP 2024 Academics Can Contribute to Domain-Specialized Language Models EMNLP 2024 Re-Evaluating Evaluation for Multilingual Summarization EMNLP 2024 MINERS: Multilingual Language Models as Semantic Retrievers EMNLP 2024 Current Status of NLP in South East Asia with Insights from Multilingualism and Language Diversity AACL 2023 Current Status of NLP in South East Asia with Insights from Multilingualism and Language Diversity IJCNLP 2023 NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages EACL 2023 Towards a Unified Multi-Domain Multilingual Named Entity Recognition Model EACL 2023 Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages EMNLP 2023 One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia ACL 2022 Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters ACL 2022 GEMv2: Multilingual NLG Benchmarking in a Single Line of Code EMNLP 2022 IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian Local Languages AACL 2022 Language Models are Few-shot Multilingual Learners EMNLP 2021 XPersona: Evaluating Multilingual Personalized Chatbot EMNLP 2021 X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing IJCNLP 2021 CAiRE in DialDoc21: Data Augmentation for Information Seeking Dialogue System ACL 2021 Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation ACL 2021 Preserving Cross-Linguality of Pre-trained Models via Continual Learning IJCNLP 2021 CAiRE in DialDoc21: Data Augmentation for Information Seeking Dialogue System IJCNLP 2021 Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation IJCNLP 2021 Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition INTERSPEECH 2021 Are Multilingual Models Effective in Code-Switching? NAACL 2021 X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing ACL 2021 Preserving Cross-Linguality of Pre-trained Models via Continual Learning ACL 2021 IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation EMNLP 2021 Learning Fast Adaptation on Cross-Accented Speech Recognition INTERSPEECH 2020 IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding AACL 2020 Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling ACL 2020 Meta-Transfer Learning for Code-Switched Speech Recognition ACL 2020 Zero-Resource Cross-Domain Named Entity Recognition ACL 2020 MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems EMNLP 2020 Cross-lingual Spoken Language Understanding with Regularized Representation Alignment EMNLP 2020 Learning Knowledge Bases with Parameters for Task-Oriented Dialogue Systems EMNLP 2020 Attention-Informed Mixed-Language Training for Zero-Shot Cross-Lingual Task-Oriented Dialogue Systems AAAI 2020 Hierarchical Meta-Embeddings for Code-Switching Named Entity Recognition IJCNLP 2019 Generalizing Question Answering System with Pre-trained Language Model Fine-tuning EMNLP 2019 CAiRE_HKUST at SemEval-2019 Task 3: Hierarchical Attention for Dialogue Emotion Classification SEMEVAL 2019 Learning Multilingual Meta-Embeddings for Code-Switching Named Entity Recognition ACL 2019 Zero-shot Cross-lingual Dialogue Systems with Transferable Latent Variables IJCNLP 2019 Hierarchical Meta-Embeddings for Code-Switching Named Entity Recognition EMNLP 2019 Zero-shot Cross-lingual Dialogue Systems with Transferable Latent Variables EMNLP 2019 Code-Switched Language Models Using Neural Based Synthetic Data from Parallel Sentences CONLL 2019 Incorporating Word and Subword Units in Unsupervised Machine Translation Using Language Model Rescoring ACL 2019 Code-Switching Language Modeling using Syntax-Aware Multi-Task Learning ACL 2018 Bilingual Character Representation for Efficiently Addressing Out-of-Vocabulary Words in Code-Switching Named Entity Recognition ACL 2018 Nora the Empathetic Psychologist INTERSPEECH 2017