Research Explorer

Eguard: Defending LLM Embeddings Against Inversion Attacks via Text Mutual Information Optimization

Tiantian Liu, Hongwei Yao, Feng Lin et al.

2026 AAAI

Dynamic Deep Prompt Optimization for Defending Against Jailbreak Attacks on LLMs

Doniyorkhon Obidov, Honggang Yu, Xiaolong Guo et al.

2026 AAAI

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

Zixun Xiong, Gaoyi Wu, Qingyang Yu et al.

2026 AAAI

Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning

Chenyu Zhang, Lanjun Wang, Yiwen Ma et al.

2026 AAAI

HalluClean: A Unified Framework to Combat Hallucinations in LLMs

Yaxin Zhao, Yu Zhang

2026 AAAI

Experiential Fairness: Bridging the Gap Between User Experience and Resource-Centric Fairness in Online LLM Services

Jiahua Huang, Wentai Wu, Yongheng Liu et al.

2026 AAAI

Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space

Cheng Yan, Wuyang Zhang, Zhiyuan Ning et al.

2026 AAAI

SPIRAL: Symbolic LLM Planning via Grounded and Reflective Search

Yifan Zhang, Giridhar Ganapavarapu, Srideepika Jayaraman et al.

2026 AAAI

EoH-S: Evolution of Heuristic Set Using LLMs for Automated Heuristic Design

Fei Liu, Yilu Liu, Qingfu Zhang et al.

2026 AAAI

MoralReason: Generalizable Moral Decision Alignment for LLM Agents Using Reasoning-Level Reinforcement Learning

Zhiyu An, Wan Du

2026 AAAI

DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs

Oluwanifemi Bamgbose, Masoud Hashemi, Sathwik Tejaswi Madhusudhan et al.

2026 AAAI

A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs

Trenton Chang, Tobias Schnabel, Adith Swaminathan et al.

2026 AAAI

MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs

Boyuan Chen, Minghao Shao, Abdul Basit et al.

2026 AAAI

A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses

Xiangxiang Dai, Yuejin Xie, Maoli Liu et al.

2026 AAAI

Resilience in Ambient Multi-Agent LLMs via Decentralized Bio-Autonomic Control and Immune-Inspired Anomaly Detection

Nastaran Darabi, Devashri Naik, Sina Tayebati et al.

2026 AAAI

AlignTree: Efficient Defense Against LLM Jailbreak Attacks

Gil Goren, Shahar Katz, Lior Wolf

2026 AAAI

Silenced Biases: The Dark Side LLMs Learned to Refuse

Rom Himelstein, Amit LeVi, Brit Youngmann et al.

2026 AAAI

Cost-Minimized Label-Flipping Poisoning Attack to LLM Alignment

Shigeki Kusaka, Keita Saito, Mikoto Kudo et al.

2026 AAAI

Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment

Jea Kwon, Luiz Felipe Vecchietti, Sungwon Park et al.

2026 AAAI

ARGH-Mark: Anchor-Synchronized Watermarking with Hamming Correction for Robust and Quality-Preserving LLM Attribution

He Li, Xiaojun Chen, Jingcheng He et al.

2026 AAAI

MRACL: Multi-Reward Space Guided Adaptive Curriculum Reinforcement Learning for LLMs

Wenxuan Liu, Liangyu Huo, Yi Jing et al.

2026 AAAI

Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang et al.

2026 AAAI

STACK: Adversarial Attacks on LLM Safeguard Pipelines

Ian R. McKenzie, Oskar John Hollinsworth, Tom Tseng et al.

2026 AAAI

AdvBDGen: A Robust Framework for Generating Adaptive and Stealthy Backdoors in LLM Alignment

Pankayaraj Pathmanathan, Udari Madhushani Sehwag, Michael-Andrei Panaitescu-Liess et al.

2026 AAAI

Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training

Jianfeng Si, Lin Sun, Zhewen Tan et al.

2026 AAAI

Papers