benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Holistic Evaluation of Text-to-Image Models NIPS 2023

OpenGSL: A Comprehensive Benchmark for Graph Structure Learning NIPS 2023

StoryBench: A Multifaceted Benchmark for Continuous Story Visualization NIPS 2023

RoboDepth: Robust Out-of-Distribution Depth Estimation under Corruptions NIPS 2023

RDumb: A simple approach that questions our progress in continual test-time adaptation NIPS 2023

Benchmarking Robustness to Adversarial Image Obfuscations NIPS 2023

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models NIPS 2023

Understanding Social Reasoning in Language Models with Language Models NIPS 2023

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality NIPS 2023

PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance NIPS 2023

CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant Care NIPS 2023

Benchmarking Large Language Models on CMExam - A comprehensive Chinese Medical Exam Dataset NIPS 2023

Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evaluations NIPS 2023

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models NIPS 2023

Mathematical Capabilities of ChatGPT NIPS 2023

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena NIPS 2023

The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks ACL 2023

Movie101: A New Movie Understanding Benchmark ACL 2023

RobuT: A Systematic Study of Table QA Robustness Against Human-Annotated Adversarial Perturbations ACL 2023

Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages ACL 2023

FERMAT: An Alternative to Accuracy for Numerical Reasoning ACL 2023

ScoNe: Benchmarking Negation Reasoning in Language Models With Fine-Tuning and In-Context Learning ACL 2023

UINAUIL: A Unified Benchmark for Italian Natural Language Understanding ACL 2023

IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning ACL 2023

GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-Distribution Generalization Perspective ACL 2023