benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models NIPS 2024

Empowering and Assessing the Utility of Large Language Models in Crop Science NIPS 2024

WenMind: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Classical Literature and Language Arts NIPS 2024

Do VSR Models Generalize Beyond LRS3? WACV 2024

Beyond Document Page Classification: Design, Datasets, and Challenges WACV 2024

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models ACL 2024

CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation AAAI 2024

CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence NIPS 2024

A Careful Examination of Large Language Model Performance on Grade School Arithmetic NIPS 2024

Assessing the Capabilities of Large Language Models in Coreference: An Evaluation COLING 2024

CoNLL#: Fine-grained Error Analysis and a Corrected Test Set for CoNLL-03 English COLING 2024

DanteLLM: Let’s Push Italian LLM Research Forward! COLING 2024

Detection, Diagnosis, and Explanation: A Benchmark for Chinese Medical Hallucination Evaluation COLING 2024

EsCoLA: Spanish Corpus of Linguistic Acceptability COLING 2024

EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation COLING 2024

Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest ACL 2023

Does Continual Learning Meet Compositionality? New Benchmarks and An Evaluation Framework NIPS 2023

MultiZoo and MultiBench: A Standardized Toolkit for Multimodal Deep Learning JMLR 2023

NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in Natural Language Processing ACL 2023

Evaluating the Factual Consistency of Large Language Models Through News Summarization ACL 2023

On Pitfalls of Test-Time Adaptation ICML 2023

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models INTERSPEECH 2023

ACES: Translation Accuracy Challenge Sets at WMT 2023 EMNLP 2023

GLUECons: A Generic Benchmark for Learning under Constraints AAAI 2023

ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation EMNLP 2023