benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models EMNLP 2024

NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian EMNLP 2024

MARPLE: A Benchmark for Long-Horizon Inference NIPS 2024

CURE4Rec: A Benchmark for Recommendation Unlearning with Deeper Influence NIPS 2024

CriticEval: Evaluating Large-scale Language Model as Critic NIPS 2024

GTA: A Benchmark for General Tool Agents NIPS 2024

BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages NIPS 2024

PromptBench: A Unified Library for Evaluation of Large Language Models JMLR 2024

WhodunitBench: Evaluating Large Multimodal Agents via Murder Mystery Games NIPS 2024

KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark COLING 2024

MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property COLING 2024

Question Answering over Tabular Data with DataBench: A Large-Scale Empirical Evaluation of LLMs COLING 2024

Revisiting the Self-Consistency Challenges in Multi-Choice Question Formats for Large Language Model Evaluation COLING 2024

Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models NIPS 2024

MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures NIPS 2024

Discovery of the Hidden World with Large Language Models NIPS 2024

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models ACL 2024

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? NIPS 2024

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA ACL 2024

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia NIPS 2024

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs NIPS 2024

Rethinking the Effectiveness of Graph Classification Datasets in Benchmarks for Assessing GNNs IJCAI 2024

LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment NIPS 2024

ConStat: Performance-Based Contamination Detection in Large Language Models NIPS 2024

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models NAACL 2024