Papers - Conftrace

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

Adeel Yousaf, Joseph Fioresi, James Beetham et al.

2026 AAAI

Safe Reinforcement Learning for Trustworthy AI: Theory, Algorithms, and Applications

Honghao Wei

2026 AAAI

SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents

Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed et al.

2026 EACL

SAFE: Semantic- and Frequency-Enhanced Curriculum for Cross-Domain Deepfake Detection

Yulin Yao, Kangfeng Zheng, Bin Wu et al.

2026 AAAI

SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication

Ruijia Zhang, Xinyan Zhao, Ruixiang Wang et al.

2026 AAAI

Safety Alignment of Large Language Models via Contrasting Safe and Harmful Distributions

Xiaoyun Zhang, Zhengyue Zhao, Wenxuan Shi et al.

2026 AAAI

SafetyMem: Adaptive Jailbreak Defense via Dual-Component Safety Memory

Hao Wang, Ziyi Ni, Huacan Wang et al.

2026 ACL

Safety of Large Language Models Beyond English: A Systematic Literature Review of Risks, Biases, and Safeguards

Aleksandra Krasnodębska, Katarzyna Dziewulska, Karolina Seweryn et al.

2026 EACL

SafetyReminder: Reviving Delayed Safety Awareness of Vision-Language Models to Defend Against Jailbreak Attacks

Peiyuan Tang, Haojie Xin, Xiaodong Zhang et al.

2026 AAAI

Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis

Wang Cai, Yilin Wen, Jinchang Hou et al.

2026 ACL

Safe-Unsafe Concept Separation Emerges from a Single Direction in Language Models Activation Space

Andrea Ermellino, Lorenzo Malandri, Fabio Mercorio et al.

2026 EACL

Safe Vision-Language Models via Unsafe Weights Manipulation

Moreno D'incà, Elia Peruzzo, Xingqian Xu et al.

2026 WACV

SAFO: Stable Adaptive Fairness Optimization for LLM-Based Social Survey Simulation

Chenxi Lin, Zhuoren Jiang, Kaisong Song et al.

2026 ACL

SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation

Paul Grimal, Michael Soumm, Hervé Le Borgne et al.

2026 AAAI

SAGE: A Compositional Multi-Agent LLM Framework with Pedagogical Reasoning for Structured Collaborative Problem Solving

Van-Khanh Tran, Van-Khai Dang, Duc-Huy Nguyen

2026 AAAI

SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models

Jiaojiao Han, Wujiang Xu, Mingyu Jin et al.

2026 EACL

SAGE: A Search-AuGmented Evaluation of Large Language Models on Free-Form QA

Sher Badshah, Ali Emami, Hassan Sajjad

2026 ACL

SAGE : A Top-Down Bottom-Up Knowledge-Grounded User Simulator for Multi-turn Agent Evaluation

Ryan Shea, Yunan Lu, Liang Qiu et al.

2026 EACL

SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement

Yuan Ge, Junxiang Zhang, Xiaoqian Liu et al.

2026 AAAI

SAGE: Sparse Adaptive Guidance for Dependency-Aware Tabular Data Generation

Shuo Yang, Zheyu Zhang, Bardh Prenkaj et al.

2026 ACL

SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias

Wenqian Ye, Di Wang, Guangtao Zheng et al.

2026 AAAI

SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

Fangyuan Xu, Rujun Han, Yanfei Chen et al.

2026 EACL

SAGE: Structured Attribute-Guided Enhancement for GZSL

Zao Zhang, Liguo Sun, Pin Lyu

2026 AAAI

SAGE: Synergistic Adaptive Gating of Experts for Hateful Video Detection

Jie Huang, Xin Liao, Junjie Wang et al.

2026 ACL

Sahara Tokenizers at PARSEME 2.0 Subtask 1: Combining Contextual Embeddings with Structural Decoding for Multi-Word Expression Detection

Yunus Karatepe, Mert Sülük, Zeynep Tuğçe Kırımlı et al.

2026 EACL