conftrace_

Pankayaraj Pathmanathan

5 papers · 2025–2026 · 3 conferences · across top CS/AI conferences

Achievements

Jump to papers ↓

🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (2) 🐝 Cross-Pollinator (11) ❓ The Questioner (2)

Conferences

AAAI (3) ACL (1) NAACL (1)

Top co-authors

Furong Huang (5) Michael-Andrei Panaitescu-Liess (3) Sicheng Zhu (2) Zora Che (2) Bang An (2) Souradip Chakraborty (2) Yongyuan Liang (1) Yuancheng Xu (1) Tom Goldstein (1) Cho-Yu Jason Chiang (1)

Keywords

copyright infringement (2) data poisoning (2) large language model (2) backdoor attack (2) adversarial attack (2) reward model (1) poisoning attack (1) human preference alignment (1) membership inference (1) membership inference attack (1) content generation (1) training data extraction (1) large language model alignment (1) adversarial fine-tuning (1) controlled decoding (1) reinforcement learning human feedback (1) model security (1) adversarial failure discovery (1) direct preference optimization (1) text generation (1)

Papers

AdvBDGen: A Robust Framework for Generating Adaptive and Stealthy Backdoors in LLM Alignment AAAI 2026 Teach a Reward Model to Correct Itself: Reward Guided Adversarial Failure Discovery for Robust Reward Modeling ACL 2026 Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? AAAI 2025 Is Poisoning a Real Threat to DPO? Maybe More So Than You Think AAAI 2025 PoisonedParrot: Subtle Data Poisoning Attacks to Elicit Copyright-Infringing Content from Large Language Models NAACL 2025