Soheil Feizi

88 papers · 2014–2026 · 12 conferences · across top CS/AI conferences

Achievements

+16 more ↓

🗺️ Taxonomy Completionist (16) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🌈 Renaissance Researcher (5) 🐣 Hot Topic Early Bird

🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (16) 🧭 Keyword Pioneer 🏠 Conference Loyalist (25) 🤝 Dynamic Duo (12) 👑 Triple Crown 🏆 Grand Slam 🔬 Deep Specialist (18) 🧬 Topic Evolution 🏆 Keyword Champion (9) ❓ The Questioner (2) 🗃️ Keyword Collector (296) 📈 Trend Setter 💎 Century Club (85) ⚡ Prolific Year (13) 🔥 Unstoppable (9)

Conferences

NIPS (25) ICLR (19) ICML (14) AAAI (7) EMNLP (5) AISTATS (4) ICCV (4) ACL (3) CVPR (3) EACL (2) UAI (1) WACV (1)

Top co-authors

Samyadeep Basu (13) Sahil Singla (12) Alexander Levine (12) Mazda Moayeri (11) Wenxiao Wang (8) Yogesh Balaji (8) Sriram Balasubramanian (7) Vinu Sankar Sadasivan (6) Keivan Rezaei (6) Aounon Kumar (5)

Research topics

Privacy (2)

Keywords

adversarial robustness (17) adversarial training (9) certified robustness (9) image classification (8) randomized smoothing (6) neural network (6) generative adversarial network (5) data poisoning (5) wasserstein distance (5) adversarial attack (5) transfer learning (4) large language model (4) robust optimization (3) vision-language model (3) deep neural network (3) threat model (3) model robustness (3) domain adaptation (3) knowledge distillation (3) maximum likelihood (3)

Papers

Decomposition-Enhanced Training for Post-Hoc Attributions in Language Models EACL 2026 Attacker’s Noise Can Manipulate Your Audio-based LLM in the Real World EACL 2026 Schoenfeld’s Anatomy of Mathematical Reasoning by Language Models ACL 2026 How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings ICLR 2025 A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models EMNLP 2025 Tool Preferences in Agentic LLMs are Unreliable EMNLP 2025 DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors EMNLP 2025 RePanda: Pandas-powered Tabular Verification and Reasoning ACL 2025 Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing ACL 2025 Rethinking Artistic Copyright Infringements In the Era Of Text-to-Image Generative Models ICLR 2025 Unearthing Skill-level Insights for Understanding Trade-offs of Foundation Models ICLR 2025 Localizing and Editing Knowledge In Text-to-Image Generative Models ICLR 2024 Understanding Information Storage and Transfer in Multi-Modal Large Language Models NIPS 2024 Loki: Low-rank Keys for Efficient Sparse Attention NIPS 2024 LLM-Check: Investigating Detection of Hallucinations in Large Language Models NIPS 2024 Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP NIPS 2024 Strong Baselines for Parameter-Efficient Few-Shot Fine-Tuning AAAI 2024 Measuring Self-Supervised Representation Quality for Downstream Classification Using Discriminative Features AAAI 2024 Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP EMNLP 2024 IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning EMNLP 2024 DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified Robustness ICLR 2024 Robustness of AI-Image Detectors: Fundamental Limits and Practical Attacks ICLR 2024 PRIME: Prioritizing Interpretability in Failure Mode Extraction ICLR 2024 On Mechanistic Knowledge Localization in Text-to-Image Generative Models ICML 2024 Fast Adversarial Attacks on Language Models In One GPU Minute ICML 2024 Data-Centric Debugging: Mitigating Model Failures via Targeted Image Retrieval WACV 2024 Exploring Geometry of Blind Spots in Vision models NIPS 2023 Goal-Conditioned Q-learning as Knowledge Distillation AAAI 2023 Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases NIPS 2023 Diffused Redundancy in Pre-trained Representations NIPS 2023 Identifying Interpretable Subspaces in Image Representations ICML 2023 CUDA: Convolution-Based Unlearnable Datasets CVPR 2023 Run-off Election: Improved Provable Defense against Data Poisoning Attacks ICML 2023 Text-To-Concept (and Back) via Cross-Model Alignment ICML 2023 Towards Improved Input Masking for Convolutional Neural Networks ICCV 2023 Provable Robustness against Wasserstein Distribution Shifts via Input Randomization ICLR 2023 Certifiably Robust Policy Learning against Adversarial Multi-Agent Communication ICLR 2023 Hard-Meta-Dataset++: Towards Understanding Few-Shot Performance on Difficult Tasks ICLR 2023 Temporal Robustness against Data poisoning NIPS 2023 Segment and Complete: Defending Object Detectors Against Adversarial Patch Attacks With Robust Patch Detection CVPR 2022 Policy Smoothing for Provably Robust Reinforcement Learning ICLR 2022 Improved deterministic l2 robustness on CIFAR-10 and CIFAR-100 ICLR 2022 Improved Certified Defenses against Data Poisoning with (Deterministic) Finite Aggregation ICML 2022 FOCUS: Familiar Objects in Common and Uncommon Settings ICML 2022 Explicit Tradeoffs between Adversarial and Natural Distributional Robustness NIPS 2022 Toward Efficient Robust Training against Union of $\ell_p$ Threat Models NIPS 2022 Salient ImageNet: How to discover spurious features in Deep Learning? ICLR 2022 Provable Adversarial Robustness for Fractional Lp Threat Models AISTATS 2022 Lethal Dose Conjecture on Data Poisoning NIPS 2022 Hard ImageNet: Segmentations for Objects with Strong Spurious Cues NIPS 2022 Improved techniques for deterministic l2 robustness NIPS 2022 A Comprehensive Study of Image Classification Model Sensitivity to Foregrounds, Backgrounds, and Visual Attributes CVPR 2022 Understanding Over-parameterization in Generative Adversarial Networks ICLR 2021 Deep Partition Aggregation: Provable Defenses against General Poisoning Attacks ICLR 2021 Influence Functions in Deep Learning Are Fragile ICLR 2021 Perceptual Adversarial Robustness: Defense Against Unseen Threat Models ICLR 2021 Unsupervised anomaly detection with adversarial mirrored autoencoders UAI 2021 Improving Deep Learning Interpretability by Saliency Guided Training NIPS 2021 Winning Lottery Tickets in Deep Generative Models AAAI 2021 GANs with Conditional Independence Graphs: On Subadditivity of Probability Divergences AISTATS 2021 Low Curvature Activations Reduce Overfitting in Adversarial Training ICCV 2021 Sample Efficient Detection and Classification of Adversarial Attacks via Self-Supervised Embeddings ICCV 2021 Improved, Deterministic Smoothing for L_1 Certified Robustness ICML 2021 Skew Orthogonal Convolutions ICML 2021 Fantastic Four: Differentiable and Efficient Bounds on Singular Values of Convolution Layers ICLR 2021 Robust Optimal Transport with Applications in Generative Modeling and Domain Adaptation NIPS 2020 Maximum Likelihood Embedding of Logistic Random Dot Product Graphs AAAI 2020 Robustness Certificates for Sparse Adversarial Attacks by Randomized Ablation AAAI 2020 Adversarial Robustness of Flow-Based Generative Models AISTATS 2020 Wasserstein Smoothing: Certified Robustness against Wasserstein Adversarial Attacks AISTATS 2020 (De)Randomized Smoothing for Certifiable Defense against Patch Attacks NIPS 2020 Benchmarking Deep Learning Interpretability in Time Series Predictions NIPS 2020 Certifying Confidence via Randomized Smoothing NIPS 2020 Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks NIPS 2020 On Second-Order Group Influence Functions for Black-Box Predictions ICML 2020 Curse of Dimensionality on Randomized Smoothing for Certifiable Robustness ICML 2020 Second-Order Provable Defenses against Adversarial Attacks ICML 2020 Adversarially Robust Distillation AAAI 2020 Entropic GANs meet VAEs: A Statistical Approach to Compute Sample Likelihoods in GANs ICML 2019 Input-Cell Attention Reduces Vanishing Saliency of Recurrent Neural Networks NIPS 2019 Quantum Wasserstein Generative Adversarial Networks NIPS 2019 Normalized Wasserstein for Mixture Distributions With Applications in Adversarial Learning and Domain Adaptation ICCV 2019 Functional Adversarial Attacks NIPS 2019 Understanding Impacts of High-Order Loss Approximations and Features in Deep Learning Interpretation ICML 2019 Are adversarial examples inevitable? ICLR 2019 Porcupine Neural Networks: Approximating Neural Network Landscapes NIPS 2018 Tensor Biclustering NIPS 2017 Biclustering Using Message Passing NIPS 2014