Yapeng Tian

40 papers · 2018–2026 · 10 conferences · across top CS/AI conferences

Achievements

+12 more ↓

🏃 Academic Marathon (7) 🌍 Conference Polyglot (10) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🐝 Cross-Pollinator (9)

🐝 Cross-Pollinator (9) 🌈 Renaissance Researcher (9) 🗺️ Taxonomy Completionist (76) 🤝 Dynamic Duo (11) 🔬 Deep Specialist (14) ❓ The Questioner ⚡ Prolific Year (5) 📈 Trend Setter 🗃️ Keyword Collector (175) 💎 Century Club (38) 🚀 Conference Pioneer 🔥 Unstoppable (8)

Conferences

CVPR (13) ICCV (7) AAAI (5) NIPS (4) ECCV (3) EMNLP (2) ICLR (2) WACV (2) ACL (1) NAACL (1)

Top co-authors

Chenliang Xu (11) Wenming Yang (8) Yulun Zhang (7) bin xia (6) Shentong Mo (5) Luc Van Gool (4) Yitong Wang (4) Shijian Deng (3) Yunhui Guo (3) Weiguo Pian (3)

Research topics

Computer Vision (1) Analysis (1)

Keywords

multimodal learning (16) audio-visual learning (7) video understanding (6) image restoration (4) efficient computing (3) video super-resolution (3) multi-modal learning (3) diffusion model (3) image super-resolution (3) sound localization (2) contrastive learning (2) visual grounding (2) sound separation (2) egocentric vision (2) sound source localization (2) cross-modal learning (2) attention mechanism (2) continual learning (2) image reconstruction (2) class-incremental learning (2)

Papers

Do Audio-Visual Segmentation Models Truly Segment Sounding Objects? AAAI 2026 Toward Gaze Target Detection of Young Autistic Children AAAI 2026 VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation CVPR 2025 CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP ACL 2025 Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level CVPR 2025 Self-Improvement in Multimodal Large Language Models: A Survey EMNLP 2025 ZFusion: Efficient Deep Compositional Zero-shot Learning for Blind Image Super-Resolution with Generative Diffusion Prior ICCV 2025 PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization ICCV 2025 Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters WACV 2025 T-VSL: Text-Guided Visual Sound Source Localization in Mixtures CVPR 2024 Continual Audio-Visual Sound Separation NIPS 2024 LAVSS: Location-Guided Audio-Visual Spatial Audio Separation WACV 2024 SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering EMNLP 2024 OSCaR: Object State Captioning and State Change Representation NAACL 2024 Basic Binary Convolution Unit for Binarized Image Restoration Network ICLR 2023 Structured Sparsity Learning for Efficient Video Super-Resolution CVPR 2023 Egocentric Audio-Visual Object Localization CVPR 2023 Audio-Visual Grouping Network for Sound Localization From Mixtures CVPR 2023 Knowledge Distillation based Degradation Estimation for Blind Super-Resolution ICLR 2023 Towards Unified, Explainable, and Robust Multisensory Perception AAAI 2023 DiffIR: Efficient Diffusion Model for Image Restoration ICCV 2023 Class-Incremental Grouping Network for Continual Audio-Visual Learning ICCV 2023 Audio-Visual Class-Incremental Learning ICCV 2023 Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning NIPS 2023 AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis NIPS 2023 Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation for Reference-Based Super-resolution AAAI 2022 Efficient Non-local Contrastive Attention for Image Super-resolution AAAI 2022 Learning To Answer Questions in Dynamic Audio-Visual Scenarios CVPR 2022 Transformer-Empowered Multi-Scale Contextual Matching and Aggregation for Multi-Contrast MRI Super-Resolution CVPR 2022 Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing NIPS 2022 Learning Spatio-Temporal Downsampling for Effective Video Upscaling ECCV 2022 Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks? CVPR 2021 Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation CVPR 2021 Video Matting via Consistency-Regularized Graph Neural Networks ICCV 2021 Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution CVPR 2020 TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution CVPR 2020 Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing ECCV 2020 CFSNet: Toward a Controllable Feature Space for Image Restoration ICCV 2019 Audio-Visual Event Localization in Unconstrained Videos ECCV 2018 Residual Dense Network for Image Super-Resolution CVPR 2018