benchmark evaluation

1539 papers

Explore in graph

Also known as

MT-BENCH BDC

Co-occurring keywords

large language model (12755) question answering (2904) multimodal learning (4622) language model (4573) multimodal large language model (865) vision-language model (2235) visual question answering (1000) evaluation benchmark (250) multilingual nlp (1423) benchmark dataset (619)

Papers

Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus NIPS 2024

T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models NIPS 2024

Large Language Models Can Not Perform Well in Understanding and Manipulating Natural Language at Both Character and Word Levels? EMNLP 2024

DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA NIPS 2024

Instruction Fine-Tuning: Does Prompt Loss Matter? EMNLP 2024

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI CVPR 2024

VBench: Comprehensive Benchmark Suite for Video Generative Models CVPR 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM CVPR 2024

Algorithmic progress in language models NIPS 2024

EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models ACL 2024

The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models ACL 2024

MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models NIPS 2024

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation NIPS 2024

CRAG - Comprehensive RAG Benchmark NIPS 2024

Achilles-Bench: A Challenging Benchmark for Low-Resource Evaluation ACL 2024

Codec-SUPERB: An In-Depth Analysis of Sound Codec Models ACL 2024

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples NIPS 2024

PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations NIPS 2024

GuardBench: A Large-Scale Benchmark for Guardrail Models EMNLP 2024

CiteME: Can Language Models Accurately Cite Scientific Claims? NIPS 2024

GC-Bench: An Open and Unified Benchmark for Graph Condensation NIPS 2024

FOFO: A Benchmark to Evaluate LLMs’ Format-Following Capability ACL 2024

One Thousand and One Pairs: A “novel” challenge for long-context language models EMNLP 2024

I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing NIPS 2024

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models ACL 2024