Research Explorer

BanglaMATH : A Bangla benchmark dataset for testing LLM mathematical reasoning at grades 6, 7, and 8

Tabia Tanzin Prama, Christopher M. Danforth, Peter Dodds

2025 EMNLP

Synthetic Proofs with Tool-Integrated Reasoning: Contrastive Alignment for LLM Mathematics with Lean

Mark Obozov, Michael Diskin, Aleksandr Beznosikov et al.

2025 EMNLP

CoCo-CoLa: Evaluating and Improving Language Adherence in Multilingual LLMs

Elnaz Rahmati, Alireza Salkhordeh Ziabari, Morteza Dehghani

2025 EMNLP

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Zhuowei Chen, Bowei Zhang, Nankai Lin et al.

2025 EMNLP

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs

Lucas Bandarkar, Nanyun Peng

2025 EMNLP

Reassessing Speech Translation for Low-Resource Languages: Do LLMs Redefine the State-of-the-Art Against Cascaded Models?

Jonah Dauvet, Min Ma, Jessica Ojo et al.

2025 EMNLP

TenseLoC: Tense Localization and Control in a Multilingual LLM

Ariun-Erdene Tumurchuluun, Yusser Al Ghussin, David Mareček et al.

2025 EMNLP

Translating Tax Law to Code with LLMs: A Benchmark and Evaluation Framework

Gabriele Lorenzo, Aldo Pietromatera, Nils Holzenberger

2025 EMNLP

Modeling Motivated Reasoning in Law: Evaluating Strategic Role Conditioning in LLM Summarization

Eunjung Cho, Alexander Hoyle, Yoan Hermstrüwer

2025 EMNLP

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

M. Mikail Demir, M Abdullah Canbaz

2025 EMNLP

ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts

Shuang Liu, Zelong Li, Ruoyun Ma et al.

2025 EMNLP

Contemporary LLMs struggle with extracting formal legal arguments

Lena Held, Ivan Habernal

2025 EMNLP

Aligning LLMs for Thai Legal Question Answering with Efficient Semantic-Similarity Rewards

Pawitsapak Akarajaradwong, Chompakorn Chaksangchaichot, Pirat Pothavorn et al.

2025 EMNLP

Not ready for the bench: LLM legal interpretation is unstable and uncalibrated to human judgments

Abhishek Purushothama, Junghyun Min, Brandon Waldon et al.

2025 EMNLP

Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning

Kush Juvekar, Arghya Bhattacharya, Sai Khadloya et al.

2025 EMNLP

Explanations explained. Influence of Free-text Explanations on LLMs and the Role of Implicit Knowledge

Andrea Zaninello, Roberto Dessi, Malvina Nissim et al.

2025 EMNLP

Latent Traits and Cross-Task Transfer: Deconstructing Dataset Interactions in LLM Fine-tuning

Shambhavi Krishna, Atharva Naik, Chaitali Agarwal et al.

2025 EMNLP

LLMs as annotators of argumentation

Anna Lindahl

2025 EMNLP

Beyond Human Judgment: A Bayesian Evaluation of LLMs’ Moral Values Understanding

Maciej Skorski, Alina Landowska

2025 EMNLP

Certain but not Probable? Differentiating Certainty from Probability in LLM Token Outputs for Probabilistic Scenarios

Autumn Toney, Ryan Wails

2025 EMNLP

On the Role of Unobserved Sequences on Sample-based Uncertainty Quantification for LLMs

Lucie Kunitomo-Jacquin, Edison Marrese-Taylor, Ken Fukuda

2025 EMNLP

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Zhiqi Huang, Vivek Datla, Chenyang Zhu et al.

2025 EMNLP

Towards Trustworthy Summarization of Cardiovascular Articles: A Factuality-and-Uncertainty-Aware Biomedical LLM Approach

Eleni Partalidou, Tatiana Passali, Chrysoula Zerva et al.

2025 EMNLP

Causal Understanding by LLMs: The Role of Uncertainty

Oscar William Lithgow-Serrano, Vani Kanjirangat, Alessandro Antonucci

2025 EMNLP

Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs

Jakub Podolak, Rajeev Verma

2025 EMNLP

Papers