Pengchuan Zhang

41 papers · 2018–2025 · 10 conferences · across top CS/AI conferences

Achievements

+15 more ↓

🌉 Interdisciplinary Bridge 🏃 Academic Marathon (7) 🌍 Conference Polyglot (10) 🌈 Renaissance Researcher (6) 🗺️ Taxonomy Completionist (75)

🌍 Conference Polyglot (10) 🏃 Academic Marathon (7) 🗺️ Taxonomy Completionist (75) 🔬 Deep Specialist (10) 🏆 Grand Slam 👥 Mega-Team (23) 🤝 Dynamic Duo (16) 🧬 Topic Evolution 🏆 Keyword Champion (2) 🔥 Unstoppable (8) ⚡ Prolific Year (11) 💎 Century Club (41) 🗃️ Keyword Collector (156) 📈 Trend Setter 🚀 Conference Pioneer

Conferences

NIPS (11) CVPR (9) ICCV (5) ICLR (4) AAAI (3) ECCV (3) EMNLP (2) ICML (2) IJCNLP (1) NAACL (1)

Top co-authors

Jianfeng Gao (16) Jianwei Yang (11) Lu Yuan (11) Chunyuan Li (9) Lei Zhang (9) Lijuan Wang (7) Xiyang Dai (7) Zhe Gan (6) Qiuyuan Huang (5) Bin Xiao (4)

Keywords

object detection (11) transfer learning (8) vision-language model (6) zero-shot learning (5) few-shot learning (4) image classification (4) adversarial robustness (3) image captioning (3) vision transformer (3) contrastive learning (3) generative adversarial network (3) attention mechanism (3) multimodal learning (3) adversarial training (2) stochastic gradient descent (2) text-to-image generation (2) computer vision (2) knowledge distillation (2) metric learning (2) visual question answering (2)

Papers

TLDR: Token-Level Detective Reward Model for Large Vision Language Models ICLR 2025 Revisiting the Role of Language Priors in Vision-Language Models ICML 2024 Evaluating Text-to-Visual Generation with Image-to-Text Generation ECCV 2024 BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation CVPR 2024 Learning Video Context as Interleaved Multimodal Sequences ECCV 2024 Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality EMNLP 2023 DIME-FM : DIstilling Multimodal and Efficient Foundation Models ICCV 2023 Parameter-Efficient Model Adaptation for Vision Transformers AAAI 2023 Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding CVPR 2023 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone ICCV 2023 UniVTG: Towards Unified Video-Language Temporal Grounding ICCV 2023 Missingness Bias in Model Debugging ICLR 2022 3DB: A Framework for Debugging Computer Vision Models NIPS 2022 ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models NIPS 2022 K-LITE: Learning Transferable Visual Models with External Knowledge NIPS 2022 Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone NIPS 2022 GLIPv2: Unifying Localization and Vision-Language Understanding NIPS 2022 Grounded Language-Image Pre-Training CVPR 2022 RegionCLIP: Region-Based Language-Image Pretraining CVPR 2022 Unified Contrastive Learning in Image-Text-Label Space CVPR 2022 An Empirical Study of Training End-to-End Vision-and-Language Transformers CVPR 2022 Efficient Self-supervised Vision Transformers for Representation Learning ICLR 2022 Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding ICCV 2021 Focal Attention for Long-Range Interactions in Vision Transformers NIPS 2021 Object-Centric Image Generation from Layouts AAAI 2021 Dynamic DETR: End-to-End Object Detection With Dynamic Attention ICCV 2021 Multiscale Invertible Generative Networks for High-Dimensional Bayesian Inference ICML 2021 VinVL: Revisiting Visual Representations in Vision-Language Models CVPR 2021 Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks ECCV 2020 Using Statistics to Automate Stochastic Optimization NIPS 2019 TIGEr: Text-to-Image Grounding for Image Caption Evaluation EMNLP 2019 RecurJac: An Efficient Recursive Algorithm for Bounding Jacobian Matrix of Neural Networks and Its Applications AAAI 2019 Object-Driven Text-To-Image Synthesis via Adversarial Training CVPR 2019 Understanding the Role of Momentum in Stochastic Gradient Methods NIPS 2019 Towards Coherent and Cohesive Long-form Text Generation NAACL 2019 Provably Robust Deep Learning via Adversarially Trained Smoothed Classifiers NIPS 2019 A Convex Relaxation Barrier to Tight Robustness Verification of Neural Networks NIPS 2019 TIGEr: Text-to-Image Grounding for Image Caption Evaluation IJCNLP 2019 Turbo Learning for CaptionBot and DrawingBot NIPS 2018 AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks CVPR 2018 On the Discrimination-Generalization Tradeoff in GANs ICLR 2018