Papers

5,479 papers found

$\texttt{ConflictBank}$: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLMs

Zhaochen Su, Jun Zhang, Xiaoye Qu et al.

2024 NIPS

Reinforcing LLM Agents via Policy Optimization with Action Decomposition

Muning Wen, Ziyu Wan, Jun Wang et al.

2024 NIPS

Distributional Preference Alignment of LLMs via Optimal Transport

Igor Melnyk, Youssef Mroueh, Brian Belgodere et al.

2024 NIPS

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Yuri Kuratov, Aydar Bulatov, Petr Anokhin et al.

2024 NIPS

LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language

James Requeima, John Bronskill, Dami Choi et al.

2024 NIPS

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia

Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano et al.

2024 NIPS

Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents

Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner et al.

2024 NIPS

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

Sukmin Yun, Haokun Lin, Rusiru Thushara et al.

2024 NIPS

When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models

Yinghui Li, Qingyu Zhou, Yuanzhen Luo et al.

2024 NIPS

NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

Tianyi Zhang, Jonah Yi, Bowen Yao et al.

2024 NIPS

ArkVale: Efficient Generative LLM Inference with Recallable Key-Value Eviction

Renze Chen, Zhuofeng Wang, Beiquan Cao et al.

2024 NIPS

Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

Jingru Jia, Zehua Yuan, Junhao Pan et al.

2024 NIPS

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Zirui Wang, Mengzhou Xia, Luxi He et al.

2024 NIPS

$\textit{Read-ME}$: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Ruisi Cai, Yeonju Ro, Geon-Woo Kim et al.

2024 NIPS

Code Repair with LLMs gives an Exploration-Exploitation Tradeoff

Hao Tang, Keya Hu, Jin Peng Zhou et al.

2024 NIPS

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

Kaifeng Lyu, Haoyu Zhao, Xinran Gu et al.

2024 NIPS

MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs

Zhongshen Zeng, Yinhong Liu, Yingjia Wan et al.

2024 NIPS

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory

Chaojun Xiao, Pengle Zhang, Xu Han et al.

2024 NIPS

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

Yue Yu, Wei Ping, Zihan Liu et al.

2024 NIPS

SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types

Yutao Mou, Shikun Zhang, Wei Ye

2024 NIPS

LLM Dataset Inference: Did you train on my dataset?

Pratyush Maini, Hengrui Jia, Nicolas Papernot et al.

2024 NIPS

Crafting Interpretable Embeddings for Language Neuroscience by Asking LLMs Questions

Vinamra Benara, Chandan Singh, John X. Morris et al.

2024 NIPS

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment

Jiaxiang Li, Siliang Zeng, Hoi-To Wai et al.

2024 NIPS

Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation

Jiawei Wang, Renhe Jiang, Chuang Yang et al.

2024 NIPS

EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries

Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak et al.

2024 NIPS