Papers - Conftrace

How do Role Models Shape Collective Morality? Exemplar-Driven Moral Learning in Multi-Agent Simulation

Junjie Liao, Huacong Tang, Zhou Ziheng et al.

2026 ACL

How effective are VLMs in assisting humans in inferring the quality of mental models from Multimodal short answers?

Pritam Sil, Durgaprasad Karnam, Vinay Reddy Venumuddala et al.

2026 EACL

How Far Can Pretrained LLMs Go in Symbolic Music? Controlled Comparisons of Supervised and Preference-based Adaptation

Deepak Kumar, Emmanouil Karystinaios, Gerhard Widmer et al.

2026 EACL

How Foundational Skills Influence VLM-based Embodied Agents: A Native Perspective

Bo Peng, Pi Bu, Keyu Pan et al.

2026 AAAI

How Good Are Inducing Points for Dataset Distillation? (Student Abstract)

Shrutimoy Das

2026 AAAI

How Good Are LLMs at Processing Tool Outputs?

Kiran Kate, Yara Rizk, Poulami Ghosh et al.

2026 EACL

How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP

Kushal Tatariya, Artur Kulmizev, Wessel Poelman et al.

2026 ACL

How Hard Is It to Explain Preferences Using Few Boolean Attributes?

Clemens Anzinger, Jiehua Chen, Christian Hatschka et al.

2026 AAAI

How Hard Is It to Rig a Tournament When Few Players Can Beat or Be Beaten by the Favorite?

Zhonghao Wang, Junqiang Peng, Yuxi Liu et al.

2026 AAAI

How Hard is Math? Using Quantitative Metrics to Measure LLM Alignment to Human Intuitions of Difficulty

Micah Helzerman, Steven R Wilson, Cam McLeman

2026 ACL

How I Met Your Bias: Investigating Bias Amplification in Diffusion Models

Nathan Roos, Ekaterina Iakovleva, Ani Gjergji et al.

2026 WACV

How Important is ‘Perfect’ English for Machine Translation Prompts?

Patrícia Schmidtová, Niyati Bafna, Seth Aycock et al.

2026 EACL

How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

Ming Li, Yanhong Li, Ziyue Li et al.

2026 ACL

How Long Reasoning Chains Influence LLMs’ Judgment of Answer Factuality

Minzhu Tu, Shiyu Ni, Keping Bi

2026 ACL

How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts

Sumin Park, Noseong Park

2026 AAAI

How Many Ratings per Item are Necessary for Reliable Significance Testing?

Christopher M Homan, Flip Korn, Deepak Pandita et al.

2026 EACL

How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior

Zidi Xiong, Yuping Lin, Wenya Xie et al.

2026 ACL

How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation Under the One-Time-Pad-Based Framework

Zi Liang, Liantong Yu, Zhang Shiyu et al.

2026 AAAI

How Much Pretraining Does Structured Data Need?

Daniel Fadlon, Kfir Bar

2026 EACL

How Much Would a Clinician Edit This Draft? Evaluating LLM Alignment for Patient Message Response Drafting

Parker Seegmiller, Joseph Gatto, Sarah E. Greer et al.

2026 ACL

How multilingual are multilingual LLMs? A case study in Northern Sámi-Finnish Translation

Jonne Sälevä, Constantine Lignos

2026 EACL

How Quantization Shapes Bias in Large Language Models

Federico Marcuzzi, Xuefei Ning, Roy Schwartz et al.

2026 EACL

How Reasoning Influences Intersectional Biases in Vision–Language Models (Student Abstract)

Adit Desai, Sudipta Roy, Mohna Chakraborty

2026 AAAI

How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains

Reza Khanmohammadi, Erfan Miahi, Simerjot Kaur et al.

2026 EACL

How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities

Aly M. Kassem, Bernhard Schölkopf, Zhijing Jin

2026 EACL