benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs EMNLP 2025

Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation ACL 2025

M2RC-EVAL: Massively Multilingual Repository-level Code Completion Evaluation ACL 2025

DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues ACL 2025

EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents ACL 2025

MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models ACL 2025

ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models COLING 2025

FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models COLING 2025

DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation COLING 2025

MiMoTable: A Multi-scale Spreadsheet Benchmark with Meta Operations for Table Reasoning COLING 2025

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models COLING 2025

QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs COLING 2025

GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering COLING 2025

BasqBBQ: A QA Benchmark for Assessing Social Biases in LLMs for Basque, a Low-Resource Language COLING 2025

Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges COLING 2025

What Makes Cryptic Crosswords Challenging for LLMs? COLING 2025

SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities ACL 2025

HuGME: A benchmark system for evaluating Hungarian generative LLMs ACL 2025

LLMs can be easily Confused by Instructional Distractions ACL 2025

ELAB: Extensive LLM Alignment Benchmark in Persian Language ACL 2025

PSET: a Phonetics-Semantics Evaluation Testbed EMNLP 2025

Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish ACL 2025

Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension ACL 2025

Big Escape Benchmark: Evaluating Human-Like Reasoning in Language Models via Real-World Escape Room Challenges ACL 2025

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing EMNLP 2025