Research Explorer

Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity

Yupu Hao, Pengfei Cao, Zhuoran Jin et al.

2025 ACL

Evaluating Pretrained Causal Language Models for Synonymy

Ioana Ivan, Carlos Ramisch, Alexis Nasr

2025 ACL

Evaluating Retrieval Augmented Generation to Communicate UK Climate Change Information

Arjun Biswas, Hatim Chahout, Tristan Pigram et al.

2025 ACL

Evaluating Robustness of LLMs to Typographical Noise in Yorùbá QA

Paul Okewunmi, Favour James, Oluwadunsin Fajemila

2025 ACL

Evaluating Sequence Labeling on the basis of Information Theory

Enrique Amigo, Elena Álvarez-Mellado, Julio Gonzalo et al.

2025 ACL

Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes

Nikita Neveditsin, Pawan Lingras, Vijay Kumar Mago

2025 ACL

Evaluating the Evaluation of Diversity in Commonsense Generation

Tianhui Zhang, Bei Peng, Danushka Bollegala

2025 ACL

Evaluating the Long-Term Memory of Large Language Models

Zixi Jia, Qinghua Liu, Hexiao Li et al.

2025 ACL

Evaluating Theory of (an uncertain) Mind: Predicting the Uncertain Beliefs of Others from Conversational Cues

Anthony Sicilia, Malihe Alikhani

2025 ACL

Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish

Elif Ecem Umutlu, Ayse Aysu Cengiz, Ahmet Kaan Sever et al.

2025 ACL

Evaluating Tokenizer Adaptation Methods for Large Language Models on Low-Resource Programming Languages

Georgy Andryushchenko, Vladimir V. Ivanov

2025 ACL

Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration

ChaeHun Park, Yujin Baek, Jaeseok Kim et al.

2025 ACL

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Fan Zhang, Shulin Tian, Ziqi Huang et al.

2025 ACL

Evaluation of Attribution Bias in Generator-Aware Retrieval-Augmented Large Language Models

Amin Abolghasemi, Leif Azzopardi, Seyyed Hadi Hashemi et al.

2025 ACL

Evaluation of LLMs in Medical Text Summarization: The Role of Vocabulary Adaptation in High OOV Settings

Gunjan Balde, Soumyadeep Roy, Mainack Mondal et al.

2025 ACL

Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation

Aneta Zugecova, Dominik Macko, Ivan Srba et al.

2025 ACL

Event-based evaluation of abstractive news summarization

Huiling You, Samia Touileb, Lilja Øvrelid et al.

2025 ACL

Event Pattern-Instance Graph: A Multi-Round Role Representation Learning Strategy for Document-Level Event Argument Extraction

Qizhi Wan, Tao Liu, Changxuan Wan et al.

2025 ACL

EventRAG: Enhancing LLM Generation with Event Knowledge Graphs

Zairun Yang, Yilin Wang, Zhengyan Shi et al.

2025 ACL

Evidence of Generative Syntax in LLMs

Mary Kennedy

2025 ACL

EvoBench: Towards Real-world LLM-Generated Text Detection Benchmarking for Evolving Large Language Models

Xiao Yu, Yi Yu, Dongrui Liu et al.

2025 ACL

EvolveBench: A Comprehensive Benchmark for Assessing Temporal Awareness in LLMs on Evolving Knowledge

Zhiyuan Zhu, Yusheng Liao, Zhe Chen et al.

2025 ACL

EvoWiki: Evaluating LLMs on Evolving Knowledge

Wei Tang, Yixin Cao, Yang Deng et al.

2025 ACL

Examining the Cultural Encoding of Gender Bias in LLMs for Low-Resourced African Languages

Abigail Oppong, Hellina Hailu Nigatu, Chinasa T. Okolo

2025 ACL

Exclusion of Thought: Mitigating Cognitive Load in Large Language Models for Enhanced Reasoning in Multiple-Choice Tasks

Qihang Fu, Yongbin Qin, Ruizhang Huang et al.

2025 ACL

Papers