model security

118 papers

Explore in graph

Co-occurring keywords

backdoor attack (377) adversarial attack (1599) adversarial learning (1592) large language model (12755) adversarial robustness (1335) adversarial defense (324) jailbreak attack (198) neural network (6616) trojan attack (23) data poisoning (128)

Papers

BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation AAAI 2026

Framework GNN-AID: Graph Neural Network Analysis, Interpretation and Defense AAAI 2026

EigenShield: Inference-Time, Model-Agnostic Jailbreaking Defense via Causal Subspace Filtering AAAI 2026

Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models AAAI 2026

Beyond Training-time Poisoning: Component-level and Post-training Backdoors in Deep Reinforcement Learning AAAI 2026

from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors ACL 2025

ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models ACL 2025

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models ACL 2025

Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks NAACL 2025

SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection EMNLP 2025

SPIRIT: Patching Speech Language Models against Jailbreak Attacks EMNLP 2025

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models CVPR 2025

Bit-Flip Induced Latency Attacks in Object Detection WACV 2025

Efficient Robustness Evaluation via Constraint Relaxation AAAI 2025

DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion ICCV 2025

Backdoor Attacks on Neural Networks via One-Bit Flip ICCV 2025

RepeatLeakage: Leak Prompts from Repeating as Large Language Model Is a Good Repeater AAAI 2025

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring NAACL 2025

SPD: Shallow Backdoor Protecting Deep Backdoor Against Backdoor Detection ICCV 2025

Safety in Large Reasoning Models: A Survey EMNLP 2025

Rethinking Backdoor Detection Evaluation for Language Models EMNLP 2025

Retracing the Past: LLMs Emit Training Data When They Get Lost EMNLP 2025

Exploring Backdoor Vulnerabilities of Chat Models COLING 2025

Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining COLING 2025

Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models AAAI 2025