benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Probing the Mid-level Vision Capabilities of Self-Supervised Learning CVPR 2025

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages CVPR 2025

Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine AAAI 2025

Theory of Mind in Large Language Models: Assessment and Enhancement ACL 2025

BinMetric: A Comprehensive Binary Code Analysis Benchmark for Large Language Models IJCAI 2025

TLUE: A Tibetan Language Understanding Evaluation Benchmark EMNLP 2025

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward EMNLP 2025

SubLIME: Subset Selection via Rank Correlation Prediction for Data-Efficient LLM Evaluation ACL 2025

SATBench: Benchmarking LLMs’ Logical Reasoning via Automated Puzzle Generation from SAT Formulas EMNLP 2025

PIPER: Benchmarking and Prompting Event Reasoning Boundary of LLMs via Debiasing-Distillation Enhanced Tuning ACL 2025

IberoBench: A Benchmark for LLM Evaluation in Iberian Languages COLING 2025

SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science ACL 2025

CogLM: Tracking Cognitive Development of Large Language Models NAACL 2025

Is your benchmark truly adversarial? AdvScore: Evaluating Human-Grounded Adversarialness NAACL 2025

LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs NAACL 2025

When2Call: When (not) to Call Tools NAACL 2025

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation ACL 2025

GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git ACL 2025

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain EMNLP 2025

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation CVPR 2025

WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization ACL 2025

Something’s Fishy in the Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks ACL 2025

QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation EMNLP 2025

MemeQA: Holistic Evaluation for Meme Understanding ACL 2025

Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner IJCAI 2025