benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Value Portrait: Assessing Language Models’ Values through Psychometrically and Ecologically Valid Items ACL 2025

MolErr2Fix: Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Correction EMNLP 2025

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation ACL 2025

What are Foundation Models Cooking in the Post-Soviet World? EMNLP 2025

The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters ACL 2025

Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models EMNLP 2025

OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution Detection CVPR 2025

Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets EMNLP 2025

RusConText Benchmark: A Russian Language Evaluation Benchmark for Understanding Context ACL 2025

Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles EMNLP 2025

CoIR: A Comprehensive Benchmark for Code Information Retrieval Models ACL 2025

WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? EMNLP 2025

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning ACL 2025

A Comprehensive Evaluation on Event Reasoning of Large Language Models AAAI 2025

CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation CVPR 2025

DMT-RoleBench: A Dynamic Multi-Turn Dialogue Based Benchmark for Role-Playing Evaluation of Large Language Model and Agent AAAI 2025

Benchmarking Long-Context Language Models on Long Code Understanding ACL 2025

DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation AAAI 2025

Retrieval Models Aren’t Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models ACL 2025

Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine AAAI 2025

REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research? ACL 2025

CAPTURE: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting ICCV 2025

LLM Agents Making Agent Tools ACL 2025

TactfulToM: Do LLMs have the Theory of Mind ability to understand White Lies? EMNLP 2025

TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMs ACL 2025