benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

SITE: towards Spatial Intelligence Thorough Evaluation ICCV 2025

CAPTURE: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting ICCV 2025

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models ICCV 2025

VisNumBench: Evaluating Number Sense of Multimodal Large Language Models ICCV 2025

PL-Guard: Benchmarking Language Model Safety for Polish ACL 2025

HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? ICCV 2025

Redundancy Principles for MLLMs Benchmarks ACL 2025

Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation WACV 2025

SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant? EMNLP 2025

ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering ACL 2025

Benchmarking Multimodal Large Language Models Against Image Corruptions ICCV 2025

RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks EMNLP 2025

FLUID QA: A Multilingual Benchmark for Figurative Language Usage in Dialogue across English, Chinese, and Korean EMNLP 2025

Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models ACL 2025

On the Human-level Performance of Visual Question Answering COLING 2025

None of the Above, Less of the Right Parallel Patterns in Human and LLM Performance on Multi-Choice Questions Answering ACL 2025

Empirical Study on Data Attributes Insufficiency of Evaluation Benchmarks for LLMs COLING 2025

Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination COLING 2025

Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study COLING 2025

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models COLING 2025

A Benchmark and Robustness Study of In-Context-Learning with Large Language Models in Music Entity Detection COLING 2025

CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations COLING 2025

KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan ACL 2025

LNE-Blocking: An Efficient Framework for Contamination Mitigation Evaluation on Large Language Models EMNLP 2025

Benchmarking the Benchmarks: Reproducing Climate-Related NLP Tasks ACL 2025