Research Explorer

Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling

Yiwen Ding, Zhiheng Xi, Wei He et al.

2025 NAACL

The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units

Badr AlKhamissi, Greta Tuckute, Antoine Bosselut et al.

2025 NAACL

Lived Experience Not Found: LLMs Struggle to Align with Experts on Addressing Adverse Drug Reactions from Psychiatric Medication Use

Mohit Chandra, Siddharth Sriraman, Gaurav Verma et al.

2025 NAACL

The Stochastic Parrot on LLM’s Shoulder: A Summative Assessment of Physical Concept Understanding

Mo Yu, Lemao Liu, Junjie Wu et al.

2025 NAACL

Are Multimodal LLMs Robust Against Adversarial Perturbations? RoMMath: A Systematic Evaluation on Multimodal Math Reasoning

Yilun Zhao, Guo Gan, Chengye Wang et al.

2025 NAACL

ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Party LLM Data Valuation

Yanzhou Pan, Huawei Lin, Yide Ran et al.

2025 NAACL

AutoParLLM: GNN-guided Context Generation for Zero-Shot Code Parallelization using LLMs

Quazi Ishtiaque Mahmud, Ali TehraniJamsaz, Hung D Phan et al.

2025 NAACL

AI-LieDar : Examine the Trade-off Between Utility and Truthfulness in LLM Agents

Zhe Su, Xuhui Zhou, Sanketh Rangreji et al.

2025 NAACL

Few-shot Personalization of LLMs with Mis-aligned Responses

Jaehyung Kim, Yiming Yang

2025 NAACL

Prompting with Phonemes: Enhancing LLMs’ Multilinguality for Non-Latin Script Languages

Hoang H Nguyen, Khyati Mahajan, Vikas Yadav et al.

2025 NAACL

JAWAHER: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking

Samar Mohamed Magdy, Sang Yun Kwon, Fakhraddin Alwajih et al.

2025 NAACL

EmojiPrompt: Generative Prompt Obfuscation for Privacy-Preserving Communication with Cloud-based LLMs

Sam Lin, Wenyue Hua, Zhenting Wang et al.

2025 NAACL

Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque

Ander Corral, Ixak Sarasua Antero, Xabier Saralegi

2025 NAACL

How to Make LLMs Forget: On Reversing In-Context Knowledge Edits

Paul Youssef, Zhixue Zhao, Jörg Schlötterer et al.

2025 NAACL

PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

Erfan Moosavi Monazzah, Vahid Rahimzadeh, Yadollah Yaghoobzadeh et al.

2025 NAACL

CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories

Yijia Xiao, Runhui Wang, Luyang Kong et al.

2025 NAACL

Complete Chess Games Enable LLM Become A Chess Master

Yinqi Zhang, Xintian Han, Haolong Li et al.

2025 NAACL

Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can’t Answer?

Nishant Balepur, Feng Gu, Abhilasha Ravichander et al.

2025 NAACL

Automatic Evaluation of Healthcare LLMs Beyond Question-Answering

Anna Arias-Duart, Pablo Agustin Martin-Torres, Daniel Hinjos et al.

2025 NAACL

STRUX: An LLM for Decision-Making with Structured Explanations

Yiming Lu, Yebowen Hu, Hassan Foroosh et al.

2025 NAACL

LLM2: Let Large Language Models Harness System 2 Reasoning

Cheng Yang, Chufan Shi, Siheng Li et al.

2025 NAACL

Using Contextually Aligned Online Reviews to Measure LLMs’ Performance Disparities Across Language Varieties

Zixin Tang, Chieh-Yang Huang, Tsung-che Li et al.

2025 NAACL

A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference

You Wu, Haoyi Wu, Kewei Tu

2025 NAACL

FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs

Forrest Sheng Bao, Miaoran Li, Renyi Qu et al.

2025 NAACL

Explore the Reasoning Capability of LLMs in the Chess Testbed

Shu Wang, Lei Ji, Renxi Wang et al.

2025 NAACL

Papers