Research Explorer

Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in LLMs

Zhiyuan Hu, Chumin Liu, Xidong Feng et al.

2024 NIPS

RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

João Monteiro, Pierre-André Noël, Étienne Marcotte et al.

2024 NIPS

Transcoders find interpretable LLM feature circuits

Jacob Dunefsky, Philippe Chlenski, Neel Nanda

2024 NIPS

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

Haoran You, Yipin Guo, Yichao Fu et al.

2024 NIPS

AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning

Shirley Wu, Shiyu Zhao, Qian Huang et al.

2024 NIPS

When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

Xuan Chen, Yuzhou Nie, Wenbo Guo et al.

2024 NIPS

GTBench: Uncovering the Strategic Reasoning Capabilities of LLMs via Game-Theoretic Evaluations

Jinhao Duan, Renming Zhang, James Diffenderfer et al.

2024 NIPS

Enhancing LLM Reasoning via Vision-Augmented Prompting

Ziyang Xiao, Dongxiang Zhang, Xiongwei Han et al.

2024 NIPS

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

Jihyung Kil, Zheda Mai, Justin Lee et al.

2024 NIPS

MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning

Shuyue Stella Li, Vidhisha Balachandran, Shangbin Feng et al.

2024 NIPS

Multi-LLM Debate: Framework, Principals, and Interventions

Andrew Estornell, Yang Liu

2024 NIPS

Protecting Your LLMs with Information Bottleneck

Zichuan Liu, Zefan Wang, Linjie Xu et al.

2024 NIPS

Time-Reversal Provides Unsupervised Feedback to LLMs

Varun Yerram, Rahul Madhavan, Sravanti Addepalli et al.

2024 NIPS

Wings: Learning Multimodal LLMs without Text-only Forgetting

Yi-Kai Zhang, Shiyin Lu, Yang Li et al.

2024 NIPS

Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs

Zhao XU, Fan LIU, Hao LIU

2024 NIPS

Large Language Models' Expert-level Global History Knowledge Benchmark (HiST-LLM)

Jakob Hauser, Daniel Kondor, Jenny Reddish et al.

2024 NIPS

ClashEval: Quantifying the tug-of-war between an LLM’s internal prior and external evidence

Kevin Wu, Eric Wu, James Zou

2024 NIPS

MindMerger: Efficiently Boosting LLM Reasoning in non-English Languages

Zixian Huang, Wenhao Zhu, Gong Cheng et al.

2024 NIPS

SpeedLoader: An I/O efficient scheme for heterogeneous and distributed LLM operation

Yiqi Zhang, Yang You

2024 NIPS

LeDex: Training LLMs to Better Self-Debug and Explain Code

Nan Jiang, Xiaopeng Li, Shiqi Wang et al.

2024 NIPS

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

Hadi Pouransari, Chun-Liang Li, Jen-Hao Rick Chang et al.

2024 NIPS

Mobility-LLM: Learning Visiting Intentions and Travel Preference from Human Mobility Data with Large Language Models

Letian Gong, Yan Lin, Xinyue Zhang et al.

2024 NIPS

Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition

Edoardo Debenedetti, Javier Rando, Daniel Paleka et al.

2024 NIPS

StackEval: Benchmarking LLMs in Coding Assistance

Nidhish Shah, Zulkuf Genc, Dogu Araci

2024 NIPS

Mission Impossible: A Statistical Perspective on Jailbreaking LLMs

Jingtong Su, Julia Kempe, Karen Ullrich

2024 NIPS

Papers