← Learning Types

Machine Learning › Learning Types ›

Adversarial Learning

4854 directly classified papers

Papers per year

Papers

Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization EMNLP 2025

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique EMNLP 2025

On Guardrail Models’ Robustness to Mutations and Adversarial Attacks EMNLP 2025

Droid: A Resource Suite for AI-Generated Code Detection EMNLP 2025

Beneath the Facade: Probing Safety Vulnerabilities in LLMs via Auto-Generated Jailbreak Prompts EMNLP 2025

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models EMNLP 2025

CAARMA: Class Augmentation with Adversarial Mixup Regularization EMNLP 2025

Adversarial Attacks Against Automated Fact-Checking: A Survey EMNLP 2025

On the Statistical Properties of Generative Adversarial Models for Low Intrinsic Data Dimension JMLR 2025

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation CVPR 2025

PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks AAAI 2025

Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions ICCV 2025

Claim-Guided Textual Backdoor Attack for Practical Applications NAACL 2025

Parameter-free and Accessible Prompt Learning to Enhance Adversarial Robustness for Pre-trained Vision-Language Models NAACL 2025

DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models AAAI 2025

DAMAGE: Detecting Adversarially Modified AI Generated Text COLING 2025

Kill two birds with one stone: generalized and robust AI-generated text detection via dynamic perturbations NAACL 2025

CNLP-NITS-PP at GenAI Detection Task 3: Cross-Domain Machine-Generated Text Detection Using DistilBERT Techniques COLING 2025

AAKR: Adversarial Attack-based Knowledge Retention for Continual Semantic Segmentation AAAI 2025

Open-Unfairness Adversarial Mitigation for Generalized Deepfake Detection ICCV 2025

SMAB: MAB based word Sensitivity Estimation Framework and its Applications in Adversarial Text Generation NAACL 2025

RedHerring Attack: Testing the Reliability of Attack Detection EMNLP 2025

Removal of Hallucination on Hallucination: Debate-Augmented RAG ACL 2025

RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors ICCV 2025

Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL ACL 2025