Yanhao Zhang

19 papers · 2021–2026 · 6 conferences · across top CS/AI conferences

Achievements

+8 more ↓

🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (6) 🌈 Renaissance Researcher (7) 🏃 Academic Marathon (5) 🗺️ Taxonomy Completionist (51)

🐣 Hot Topic Early Bird 🌍 Conference Polyglot (6) 🏃 Academic Marathon (5) 🧬 Topic Evolution 💎 Century Club (16) ⚡ Prolific Year (6) 🔥 Unstoppable (5) 🗃️ Keyword Collector (129)

Conferences

AAAI (6) CVPR (4) ICCV (4) IJCAI (2) NIPS (2) ICML (1)

Top co-authors

Haonan Lu (5) Hongdong Li (4) Fanyi Wang (4) Jingwen Su (3) Shan Wang (3) Qiang Wang (2) Zhihan Zhu (2) Weixuan Sun (2) Guo-Jun Qi (2) Yuming Qiao (2)

Keywords

video understanding (3) cross-view localization (2) attention mechanism (2) video processing (2) image editing (2) pose estimation (2) multimodal large language model (2) action recognition (1) semantic segmentation (1) sparse recovery (1) anomaly detection (1) source localization (1) hierarchical planning (1) em algorithm (1) domain adaptation (1) zero-shot learning (1) self-supervised learning (1) bayesian learning (1) chain-of-thought reasoning (1) video captioning (1)

Papers

Aligning Cross-View Visual Geometries in LVLMs Through Human-Like Reasoning Learning AAAI 2026 Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation AAAI 2026 OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward AAAI 2026 Best Subset Selection: Optimal Pursuit for Feature Selection and Elimination ICML 2025 HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator CVPR 2025 Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference ICCV 2025 R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction NIPS 2024 Block Sparse Bayesian Learning: A Diversified Scheme NIPS 2024 BARET: Balanced Attention Based Real Image Editing Driven by Target-Text Inversion AAAI 2024 View From Above: Orthogonal-View aware Cross-view Localization CVPR 2024 Zero-shot High-fidelity and Pose-controllable Character Animation IJCAI 2024 Homography Guided Temporal Fusion for Road Line and Marking Segmentation ICCV 2023 TALL: Thumbnail Layout for Deepfake Video Detection ICCV 2023 Learning Audio-Visual Source Localization via False Negative Aware Contrastive Learning CVPR 2023 Matting Moments: A Unified Data-Driven Matting Engine for Mobile AIGC in Photo Gallery IJCAI 2023 GAM: Gradient Attention Module of Optimization for Point Clouds Analysis AAAI 2023 View Consistent Purification for Accurate Cross-View Localization ICCV 2023 RCL: Recurrent Continuous Localization for Temporal Action Detection CVPR 2022 Fashion Focus: Multi-modal Retrieval System for Video Commodity Localization in E-commerce AAAI 2021