benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

PlanningArena: A Modular Benchmark for Multidimensional Evaluation of Planning and Tool Learning ACL 2025

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling ACL 2025

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering ACL 2025

Vision-Language Models Struggle to Align Entities across Modalities ACL 2025

Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data EMNLP 2025

Benchmarking Multimodal Large Language Models Against Image Corruptions ICCV 2025

Redundancy Principles for MLLMs Benchmarks ACL 2025

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States ACL 2025

VisNumBench: Evaluating Number Sense of Multimodal Large Language Models ICCV 2025

CAPTURE: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting ICCV 2025

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models ICCV 2025

Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation ICCV 2025

Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine AAAI 2025

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research ACL 2025

HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? ICCV 2025

Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation WACV 2025

“What do you call a dog that is incontrovertibly true? Dogma”: Testing LLM Generalization through Humor ACL 2025

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models ACL 2025

Truth Behind the Scene: Designing Evaluations Benchmarks to Assess LLMs’ Task-Specific Understanding over Test-Taking Strategies AAAI 2025

MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models AAAI 2025

How does Misinformation Affect Large Language Model Behaviors and Preferences? ACL 2025

Are We Done with MMLU? NAACL 2025

KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan ACL 2025

Batayan: A Filipino NLP benchmark for evaluating Large Language Models ACL 2025

Agri-CM3: A Chinese Massive Multi-modal, Multi-level Benchmark for Agricultural Understanding and Reasoning ACL 2025