Baining Guo

37 papers · 2013–2026 · 8 conferences · across top CS/AI conferences

Achievements

+13 more ↓

🌍 Conference Polyglot (8) 🏃 Academic Marathon (13) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🐝 Cross-Pollinator (13)

🗺️ Taxonomy Completionist (67) 🌈 Renaissance Researcher (7) 🌍 Conference Polyglot (8) 🌟 Keyword Trendsetter Combo (3) 🤝 Dynamic Duo (16) 🏆 Grand Slam 🔬 Deep Specialist (10) 🧬 Topic Evolution ⚡ Prolific Year (10) 💎 Century Club (37) 🗃️ Keyword Collector (203) 🔥 Unstoppable (9) 🚀 Conference Pioneer

Conferences

CVPR (18) ICCV (8) NIPS (3) ECCV (2) ICML (2) WACV (2) AAAI (1) ICLR (1)

Top co-authors

Dong Chen (16) Jianmin Bao (15) Han Hu (8) Ting Zhang (7) Fang Wen (6) Zheng Zhang (6) Shuyang Gu (6) CHUNYU WANG (5) Jiaolong Yang (5) Dongdong Chen (5)

Research topics

Core AI (1)

Keywords

diffusion model (9) image generation (8) vision transformer (5) semantic segmentation (4) object detection (4) reinforcement learning (3) multimodal learning (3) video generation (3) text-to-image synthesis (3) image classification (3) deepfake detection (2) unsupervised learning (2) multi-task learning (2) text-to-image generation (2) transfer learning (2) zero-shot learning (2) self-attention mechanism (2) transformer architecture (2) multi-modal learning (2) variational autoencoder (2)

Papers

MageBench: Bridging Large Multimodal Models to Agents WACV 2026 Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis ICCV 2025 UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping CVPR 2025 ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation CVPR 2025 Optimizing Large Language Model Training Using FP4 Quantization ICML 2025 Improved Noise Schedule for Diffusion Training ICCV 2025 MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation CVPR 2024 Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms NIPS 2024 GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling NIPS 2024 CCEdit: Creative and Controllable Video Editing via Diffusion Models CVPR 2024 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time NIPS 2024 InstructDiffusion: A Generalist Modeling Interface for Vision Tasks CVPR 2024 RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models ECCV 2024 IRGen: Generative Modeling for Image Retrieval ECCV 2024 V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection ICLR 2024 Unsupervised Graphic Layout Grouping With Transformers WACV 2024 iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition CVPR 2023 PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers AAAI 2023 Efficient Diffusion Training via Min-SNR Weighting Strategy ICCV 2023 Adaptive Frequency Filters As Efficient Global Token Mixers ICCV 2023 Improving CLIP Fine-tuning Performance ICCV 2023 MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation CVPR 2023 RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion CVPR 2023 Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions CVPR 2022 CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows CVPR 2022 Vector Quantized Diffusion Model for Text-to-Image Synthesis CVPR 2022 Protecting Celebrities From DeepFake With Identity Consistency Transformer CVPR 2022 Swin Transformer V2: Scaling Up Capacity and Resolution CVPR 2022 StyleSwin: Transformer-Based GAN for High-Resolution Image Generation CVPR 2022 Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows ICCV 2021 Learning Texture Transformer Network for Image Super-Resolution CVPR 2020 Face X-Ray for More General Face Forgery Detection CVPR 2020 Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting CVPR 2019 Compressing Neural Networks using the Variational Information Bottleneck ICML 2018 Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-Encoders ICCV 2015 Orientational Pyramid Matching for Recognizing Indoor Scenes CVPR 2014 Fast Neighborhood Graph Search Using Cartesian Concatenation ICCV 2013