benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties EACL 2026

Do Multi-Agents Solve Better Than Single? Evaluating Agentic Frameworks for Diagram-Grounded Geometry Problem Solving and Reasoning EACL 2026

A Benchmark and Evaluation of Automated Language of Study Extraction from Computational Linguistics Publications EACL 2026

Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It EACL 2026

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution EACL 2026

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge EACL 2026

Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities EACL 2026

KazakhOCR: A Synthetic Benchmark for Evaluating Multimodal Models in Low-Resource Kazakh Script OCR EACL 2026

AraLingBench: A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models EACL 2026

TeluguEval: A Comprehensive Benchmark for Evaluating LLM Capabilities in Telugu EACL 2026

Vinclat: Evaluating Reasoning, Cognition and Culture in One Game EACL 2026

FormGym: Doing Paperwork with Agents EACL 2026

What’s Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning EACL 2026

The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs EACL 2026

PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs EACL 2026

MicroEvoEval: A Systematic Evaluation Framework for Image-Based Microstructure Evolution Prediction AAAI 2026

MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains AAAI 2026

Benchmarking LLMs for Political Science: A United Nations Perspective AAAI 2026

SoMe: A Realistic Benchmark for LLM-based Social Media Agents AAAI 2026

Paper Folding Puzzles: Can Multimodal Large Language Models Perform Spatial Reasoning? AAAI 2026

Beyond Counting: Evaluating Abstract and Emotional Reasoning in Vision-Language Models AAAI 2026

Do Large Language Models Reason About Uncertainty Like Humans? A Benchmark on Hurricane Forecast Visualization Comprehension AAAI 2026

NoReGeo: Non-Reasoning Geometry Benchmark AAAI 2026

CMedBench: A Comprehensive Benchmark for Efficient Medical Large Language Models AAAI 2026

LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning AAAI 2026