adversarial robustness

1335 papers

Explore in graph

Also known as

UAP PAR ADV AR

Co-occurring keywords

adversarial training (1261) adversarial attack (1599) neural network (6616) adversarial example (563) adversarial learning (1592) model robustness (478) adversarial defense (324) large language model (12755) certified robustness (116) adversarial perturbation (376)

Papers

TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models CVPR 2025

Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement AAAI 2025

Everywhere Attack: Attacking Locally and Globally to Boost Targeted Transferability AAAI 2025

Dynamic Guided and Domain Applicable Safeguards for Enhanced Security in Large Language Models NAACL 2025

Towards Adversarially Robust Dataset Distillation by Curvature Regularization AAAI 2025

HiddenDetect: Detecting Jailbreak Attacks against Multimodal Large Language Models via Monitoring Hidden States ACL 2025

KDAT: Inherent Adversarial Robustness via Knowledge Distillation with Adversarial Tuning for Object Detection Models AAAI 2025

DROWN: Towards Tighter LiRPA-based Robustness Certification COLING 2025

When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations ACL 2025

Efficient Robustness Evaluation via Constraint Relaxation AAAI 2025

Mitigating Catastrophic Overfitting in Fast Adversarial Training via Label Information Elimination ICCV 2025

J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain AAAI 2025

Training Verification-Friendly Neural Networks via Neuron Behavior Consistency AAAI 2025

RealSafe: Quantifying Safety Risks of Language Agents in Real-World COLING 2025

How Ambiguous Are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty COLING 2025

Kill two birds with one stone: generalized and robust AI-generated text detection via dynamic perturbations NAACL 2025

Adversarial Training for Probabilistic Robustness ICCV 2025

Extractive Fact Decomposition for Interpretable Natural Language Inference in one Forward Pass EMNLP 2025

Sparse Transfer Learning Accelerates and Enhances Certified Robustness: A Comprehensive Study AAAI 2025

Improving Deep Detector Robustness via Detection-Related Discriminant Maximization and Reorganization WACV 2025

A²RNet: Adversarial Attack Resilient Network for Robust Infrared and Visible Image Fusion AAAI 2025

TempParaphraser: “Heating Up” Text to Evade AI-Text Detection through Paraphrasing EMNLP 2025

FAIR-TAT: Improving Model Fairness using Targeted Adversarial Training WACV 2025

LiteLMGuard: Seamless and Lightweight On-Device Guardrails for Small Language Models against Quantization Vulnerabilities IJCNLP 2025

An Adversary-Resistant Multi-Agent LLM System via Credibility Scoring IJCNLP 2025