Papers - Conftrace

SafeConstellations: Mitigating Over-Refusals in LLMs Through Task-Aware Representation Steering

Utsav Maskey, Sumit Yadav, Mark Dras et al.

2026 ACL

Safe-FedLLM: Delving into the Safety of Federated Large Language Models

Mingxiang Tao, Yu Tian, Wenxuan Tu et al.

2026 ACL

SafeguardGS: 3D Gaussian Primitive Pruning While Avoiding Catastrophic Scene Destruction

Yongjae Lee, Zhaoliang Zhang, Deliang Fan

2026 WACV

Safeguarding Language Models via Self-Destruct Trapdoor

Shahar Katz, Bar Alon, Ariel Shaulov et al.

2026 EACL

Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment

Haozhong Wang, Zhuo Li, Yibo Yang et al.

2026 ACL

SafeLens: Segment-Level Hate Speech Detection in Online Videos

Zhuoran Wang, Dylan Raharja, Yujia Hu et al.

2026 AAAI

SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning

Lichao Wang, ZhaoXing Ren, Tianzhuo Yang et al.

2026 ACL

SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

Returaj Burnwal, Nirav Pravinbhai Bhatt, Balaraman Ravindran

2026 AAAI

SafeMT: Multi-turn Safety for Multimodal Language Models

Han Zhu, Juntao Dai, Jiaming Ji et al.

2026 ACL

Safe Multi-Agent Reinforcement Learning via Distributional Safety Critic and Maximum Entropy Optimization

Qiwei Liu, Ye Yuan, Lingyue Zhang et al.

2026 AAAI

Safe Multi-agent Reinforcement Learning with Natural Language Constraints

Ziyan Wang, Meng Fang, Tristan Tomilin et al.

2026 AAAI

SafeNLIDB: A Privacy-Preserving Safety Alignment Framework for LLM-based Natural Language Database Interfaces

Ruiheng Liu, Xiaobing Chen, Jinyu Zhang et al.

2026 AAAI

SAFE-QAQ: End-to-End Slow-Thinking Audio-Text Fraud Detection via Reinforcement Learning

Peidong Wang, Zhiming Ma, Xin Dai et al.

2026 ACL

Safe RAG by RAG: Untying the Bell That RAG Rang with the RAG Hand

Xun Liang, Mengwei Wang, Yuefeng Ma et al.

2026 AAAI

SAFER-AiD: Saccade-Assisted Foveal-peripheral vision Enhanced Reconstruction for Adversarial Defense

Jiayang Liu, Daniel Ts'o, Yiming Bu et al.

2026 WACV

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

Adeel Yousaf, Joseph Fioresi, James Beetham et al.

2026 AAAI

Safe Reinforcement Learning for Trustworthy AI: Theory, Algorithms, and Applications

Honghao Wei

2026 AAAI

SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents

Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed et al.

2026 EACL

SAFE: Semantic- and Frequency-Enhanced Curriculum for Cross-Domain Deepfake Detection

Yulin Yao, Kangfeng Zheng, Bin Wu et al.

2026 AAAI

SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication

Ruijia Zhang, Xinyan Zhao, Ruixiang Wang et al.

2026 AAAI

Safety Alignment of Large Language Models via Contrasting Safe and Harmful Distributions

Xiaoyun Zhang, Zhengyue Zhao, Wenxuan Shi et al.

2026 AAAI

SafetyMem: Adaptive Jailbreak Defense via Dual-Component Safety Memory

Hao Wang, Ziyi Ni, Huacan Wang et al.

2026 ACL

Safety of Large Language Models Beyond English: A Systematic Literature Review of Risks, Biases, and Safeguards

Aleksandra Krasnodębska, Katarzyna Dziewulska, Karolina Seweryn et al.

2026 EACL

SafetyReminder: Reviving Delayed Safety Awareness of Vision-Language Models to Defend Against Jailbreak Attacks

Peiyuan Tang, Haojie Xin, Xiaodong Zhang et al.

2026 AAAI

Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis

Wang Cai, Yilin Wen, Jinchang Hou et al.

2026 ACL