model security

118 papers

Explore in graph

Co-occurring keywords

backdoor attack (377) adversarial attack (1599) adversarial learning (1592) large language model (12755) adversarial robustness (1335) adversarial defense (324) jailbreak attack (198) neural network (6616) trojan attack (23) data poisoning (128)

Papers

Defending against Backdoor Attacks in Natural Language Generation AAAI 2023

XRand: Differentially Private Defense against Explanation-Guided Attacks AAAI 2023

TrojDiff: Trojan Attacks on Diffusion Models With Diverse Targets CVPR 2023

NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models ACL 2023

Adversarial Parameter Attack on Deep Neural Networks ICML 2023

Attention-Enhancing Backdoor Attacks Against BERT-based Models EMNLP 2023

UPTON: Preventing Authorship Leakage from Public Text Release via Data Poisoning EMNLP 2023

Django: Detecting Trojans in Object Detection Models via Gaussian Focus Calibration NIPS 2023

One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training ICCV 2023

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis ICCV 2023

Understanding Backdoor Attacks through the Adaptability Hypothesis ICML 2023

Preprocessors Matter! Realistic Decision-Based Attacks on Machine Learning Systems ICML 2023

Training with More Confidence: Mitigating Injected and Natural Backdoors During Training NIPS 2022

Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks EMNLP 2022

A Study of the Attention Abnormality in Trojaned BERTs NAACL 2022

A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks NIPS 2022

An Embarrassingly Simple Approach for Intellectual Property Rights Protection on Recurrent Neural Networks IJCNLP 2022

Defending against Model Stealing via Verifying Embedded External Features AAAI 2022

Autoregressive Perturbations for Data Poisoning NIPS 2022

With False Friends Like These, Who Can Notice Mistakes? AAAI 2022

Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class NIPS 2022

Poisoning Deep Learning Based Recommender Model in Federated Learning Scenarios IJCAI 2022

Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples NIPS 2022

Imperceptible Backdoor Attack: From Input Space to Feature Representation IJCAI 2022

Better Trigger Inversion Optimization in Backdoor Scanning CVPR 2022