benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

T2R-BENCH: A Benchmark for Real World Table-to-Report Task EMNLP 2025

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models ACL 2025

Evaluating Numeracy of Language Models as a Natural Language Inference Task NAACL 2025

Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models EMNLP 2025

Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets EMNLP 2025

On the Consistency of Commonsense in Large Language Models ACL 2025

MMInA: Benchmarking Multihop Multimodal Internet Agents ACL 2025

MolErr2Fix: Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Correction EMNLP 2025

BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical Domain ACL 2025

ARC ‘Challenge’ Is Not That Challenging ACL 2025

STEER-BENCH: A Benchmark for Evaluating the Steerability of Large Language Models EMNLP 2025

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs EMNLP 2025

Conceptual Diagnostics for Knowledge Graphs and Large Language Models ACL 2025

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? ACL 2025

Temporal Referential Consistency: Do LLMs Favor Sequences Over Absolute Time References? EMNLP 2025

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models ACL 2025

Reasoning or Memorization? Investigating LLMs’ Capability in Restoring Chinese Internet Homophones ACL 2025

Questioning Our Questions: How Well Do Medical QA Benchmarks Evaluate Clinical Capabilities of Language Models? ACL 2025

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios EMNLP 2025

Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark EMNLP 2025

WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? EMNLP 2025

REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research? ACL 2025

Retrieval Models Aren’t Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models ACL 2025

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors EMNLP 2025

Benchmarking Long-Context Language Models on Long Code Understanding ACL 2025