Research Explorer

EssayBench: Evaluating Large Language Models in Multi-Genre Chinese Essay Writing

Fan Gao, Dongyuan Li, Ding Xia et al.

2026 AAAI

Estimating Online Influence Needs Causal Modeling! Counterfactual Analysis of Misinformation Engagement on Social Media

Lin Tian, Marian-Andrei Rizoiu

2026 AAAI

Estimating the True Distribution of Data Collected with Randomized Response

Carlos Antonio Pinzón, Ehab ElSalamouny, Lucas Massot et al.

2026 AAAI

Ethical Decision-making with AI: Value Alignment and the Role of Reasoning

Samarth Khanna

2026 AAAI

ETOM: A Five-Level Benchmark for Evaluating Tool Orchestration within the MCP Ecosystem

Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu et al.

2026 EACL

EvalMuse-40K: A Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Alignment Evaluation

Shuhao Han, Haotian Fan, Jiachen Fu et al.

2026 AAAI

EvalQAG: A Framework for Automatic Complex QA Generation and a Benchmark QA Dataset for Policy Documents

Kirtan Brijeshbhai Soni, Krish Rupapara, Arpit Rana et al.

2026 AAAI

EvalSense: A Framework for Domain-Specific LLM (Meta-)Evaluation

Adam Dejl, Jonathan Pearson

2026 EACL

Evaluating Adversarial Robustness of Concept Representations in Sparse Autoencoders

Aaron J. Li, Suraj Srinivas, Usha Bhalla et al.

2026 EACL

Evaluating Cost-Efficiency of LLMs in a RAG Setup on Polish Wikipedia: Quality vs. Energy Consumption

Patrycja Smits, Tomasz Walkowiak

2026 EACL

Evaluating Humanities Theory Alignment in Large Language Models: Incremental Prompting and Statistical Assessment

Axel Pichler, Janis Pagel

2026 EACL

Evaluating Large Language Models on Lithuanian Grammatical Cases

Urtė Jakubauskaitė, Raquel G. Alhama

2026 EACL

Evaluating LLMs for Police Decision-Making: A Framework Based on Police Action Scenarios

Sangyub Lee, Heedou Kim, Hyeoncheol Kim

2026 AAAI

Evaluating Morphological Plausibility of Subword Tokenization via Statistical Alignment with Morpho-Syntactic Features

Abishek Stephen, Jindřich Libovický

2026 EACL

Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Benchmark

Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki et al.

2026 EACL

Evaluating Native-Speaker Preferences on Machine Translation and Post-Edits for Five African Languages

Hiba El Oirghi, Tajuddeen Gwadabe, Marine Carpuat

2026 EACL

Evaluating Online Moderation via LLM-Powered Counterfactual Simulations

Giacomo Fidone, Lucia Passaro, Riccardo Guidotti

2026 AAAI

Evaluating Retrieval-Augmented Generation for Medication Question Answering on Nigerian Drug Labels in Yorùbá

Aramide Adebesin, Zainab Tairu

2026 EACL

Evaluating Sparse Autoencoders for Monosemantic Representation

Moghis Fereidouni, Muhammad Umair Haider, Peizhong Ju et al.

2026 EACL

Evaluating, Synthesizing, and Enhancing for Customer Support Conversation

Jie Zhu, Huaixia Dou, Junhui Li et al.

2026 AAAI

Evaluating Text-to-Image and Text-to-Video Synthesis with a Conditional Frechet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali et al.

2026 WACV

Evaluating the Capability of Video Question Generation for Expert Knowledge Elicitation

Huaying Zhang, Atsushi Hashimoto, Tosho Hirasawa

2026 WACV

Evaluating the Effect of Retrieval Augmentation on Social Biases

Tianhui Zhang, Yi Zhou, Danushka Bollegala

2026 EACL

Evaluating the Factuality of Large Language Models Using Multiple Plug-and-Play Fact Sources

Zhaoheng Huang, Yutao Zhu, Jirong Wen et al.

2026 AAAI

Evaluating the Impact of SAE-based Language Steering on LLM Performance

Sebastian Zwirner, Wentao Hu, Koshiro Aoki et al.

2026 EACL

Papers