benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

PapersPlease: A Benchmark for Evaluating Motivational Values of Large Language Models Based on ERG Theory ACL 2025

Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference ACL 2025

Finance Language Model Evaluation (FLaME) ACL 2025

XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering EMNLP 2025

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in Large Language Models ACL 2025

Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ACL 2025

LongSafety: Enhance Safety for Long-Context LLMs ACL 2025

CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models EMNLP 2025

CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ) ACL 2025

Can Language Models Replace Programmers for Coding? REPOCOD Says ‘Not Yet’ ACL 2025

FrontierScience Bench: Evaluating AI Research Capabilities in LLMs ACL 2025

seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs EMNLP 2025

TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMs ACL 2025

CRAB: A Benchmark for Evaluating Curation of Retrieval-Augmented LLMs in Biomedicine EMNLP 2025

LLM Agents Making Agent Tools ACL 2025

Benchmarking Deep Search over Heterogeneous Enterprise Data EMNLP 2025

IberoBench: A Benchmark for LLM Evaluation in Iberian Languages COLING 2025

Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner IJCAI 2025

PIPER: Benchmarking and Prompting Event Reasoning Boundary of LLMs via Debiasing-Distillation Enhanced Tuning ACL 2025

Beyond Clean Training Data: A Versatile and Model-Agnostic Framework for Out-of-Distribution Detection with Contaminated Training Data CVPR 2025

SubLIME: Subset Selection via Rank Correlation Prediction for Data-Efficient LLM Evaluation ACL 2025

ReasoningWeekly: A General Knowledge and Verbal Reasoning Challenge for Large Language Models AACL 2025

Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models AACL 2025

PII-Scope: A Comprehensive Study on Training Data Privacy Leakage in Pretrained LLMs AACL 2025

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation ACL 2025