benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models EMNLP 2025

Leveraging Large Models to Evaluate Novel Content: A Case Study on Advertisement Creativity EMNLP 2025

T2R-BENCH: A Benchmark for Real World Table-to-Report Task EMNLP 2025

TCP: a Benchmark for Temporal Constraint-Based Planning EMNLP 2025

Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner IJCAI 2025

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure ACL 2025

Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling ACL 2025

LLM Agents Making Agent Tools ACL 2025

TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMs ACL 2025

ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models ACL 2025

FrontierScience Bench: Evaluating AI Research Capabilities in LLMs ACL 2025

CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ) ACL 2025

Can Language Models Replace Programmers for Coding? REPOCOD Says ‘Not Yet’ ACL 2025

GIMMICK: Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking ACL 2025

LongSafety: Enhance Safety for Long-Context LLMs ACL 2025

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in Large Language Models ACL 2025

Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ACL 2025

Finance Language Model Evaluation (FLaME) ACL 2025

PapersPlease: A Benchmark for Evaluating Motivational Values of Large Language Models Based on ERG Theory ACL 2025

Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference ACL 2025

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era ACL 2025

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark ACL 2025

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation ACL 2025

Big Escape Benchmark: Evaluating Human-Like Reasoning in Language Models via Real-World Escape Room Challenges ACL 2025

Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish ACL 2025