Yaowei Wang

86 papers · 2016–2026 · 11 conferences · across top CS/AI conferences

Achievements

+11 more ↓

🌍 Conference Polyglot (11) 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (10) 🧭 Keyword Pioneer 🏃 Academic Marathon (9)

🏃 Academic Marathon (9) 🐝 Cross-Pollinator (9) 🌈 Renaissance Researcher (11) 🏠 Conference Loyalist (25) 🔬 Deep Specialist (13) 👑 Triple Crown 🏆 Grand Slam 🗃️ Keyword Collector (319) 💎 Century Club (83) ⚡ Prolific Year (18) 🔥 Unstoppable (7)

Conferences

CVPR (25) ICCV (11) AAAI (10) ACL (10) ICLR (8) ECCV (7) NIPS (6) IJCAI (4) ICML (3) EMNLP (1) UAI (1)

Top co-authors

Bin Chen (10) Shu-Tao Xia (9) Yonghong Tian (9) Min Zhang (8) Jinpeng Wang (7) Mingkui Tan (7) Dongmei Jiang (7) Qixiang Ye (6) Wei Zeng (6) Changsheng Xu (5)

Research topics

Privacy (1) Core AI (1)

Keywords

domain adaptation (8) representation learning (7) object detection (6) self-supervised learning (5) transfer learning (4) attention mechanism (4) large language model (4) contrastive learning (4) image compression (3) feature alignment (3) video understanding (3) visual tracking (3) few-shot learning (3) multimodal learning (3) semantic segmentation (3) image classification (3) model compression (3) metric learning (3) vision transformer (3) multi-modal learning (3)

Papers

Latent-Condensed Transformer for Efficient Long Context Modeling ACL 2026 From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents ACL 2026 Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding AAAI 2026 A Survey on the Feedback Mechanism of LLM-based AI Agents IJCAI 2025 Perceptually Constrained Precipitation Nowcasting Model ICML 2025 Core Context Aware Transformers for Long Context Language Modeling ICML 2025 Building Vision Models upon Heat Conduction CVPR 2025 AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing CVPR 2025 Video Language Model Pretraining with Spatio-temporal Masking CVPR 2025 NN-Former: Rethinking Graph Structure in Neural Architecture Representation CVPR 2025 Unsupervised Degradation Representation Aware Transform for Real-World Blind Image Super-Resolution AAAI 2025 Pilot: Building the Federated Multimodal Instruction Tuning Framework AAAI 2025 DiffPC: Diffusion-based High Perceptual Fidelity Image Compression with Semantic Refinement ICLR 2025 Learning Spatial-Semantic Features for Robust Video Object Segmentation ICLR 2025 Learning Fine-Grained Representations through Textual Token Disentanglement in Composed Video Retrieval ICLR 2025 Modeling Uncertainty in Composed Image Retrieval via Probabilistic Embeddings ACL 2025 PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models ACL 2025 A Unified Agentic Framework for Evaluating Conditional Image Generation ACL 2025 VideoVista-CulturalLingo: 360° Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension ACL 2025 Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling ACL 2025 EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment ICLR 2025 An Exploration with Entropy Constrained 3D Gaussians for 2D Video Compression ICLR 2025 Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios ICCV 2025 LaneDiffusion: Improving Centerline Graph Learning via Prior Injected BEV Feature Generation ICCV 2025 Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning ICCV 2025 RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model ICCV 2025 Cassic: Towards Content-Adaptive State-Space Models for Learned Image Compression ICCV 2025 Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors EMNLP 2025 Sound Bridge: Associating Egocentric and Exocentric Videos via Audio Cues CVPR 2025 DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering CVPR 2025 Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval CVPR 2025 Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning CVPR 2025 StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion ECCV 2024 M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation NIPS 2024 VMamba: Visual State Space Model NIPS 2024 LG-VQ: Language-Guided Codebook Learning NIPS 2024 OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling NIPS 2024 HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors AAAI 2024 Feature Distribution Matching by Optimal Transport for Effective and Robust Coreset Selection AAAI 2024 Regressor-Segmenter Mutual Prompt Learning for Crowd Counting CVPR 2024 Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization CVPR 2024 Modality-Collaborative Test-Time Adaptation for Action Recognition CVPR 2024 RTracker: Recoverable Tracking via PN Tree Structured Memory CVPR 2024 CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition CVPR 2024 "Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance" ECCV 2024 Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation ECCV 2024 Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition ICLR 2024 Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation ICLR 2024 Multi-Factor Adaptive Vision Selection for Egocentric Video Question Answering ICML 2024 MLP-DINO: Category Modeling and Query Graphing with Deep MLP for Object Detection IJCAI 2024 Integrally Pre-Trained Transformer Pyramid Networks CVPR 2023 Manifold-Aware Self-Training for Unsupervised Domain Adaptation on Regressing 6D Object Pose IJCAI 2023 Learned Distributed Image Compression with Multi-Scale Patch Matching in Feature Domain AAAI 2023 Spikformer: When Spiking Neural Network Meets Transformer ICLR 2023 KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation CVPR 2023 Isolation and Impartial Aggregation: A Paradigm of Incremental Learning without Interference AAAI 2023 MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning ACL 2023 Digging out Discrimination Information from Generated Samples for Robust Visual Question Answering ACL 2023 AsyFOD: An Asymmetric Adaptation Paradigm for Few-Shot Domain Adaptive Object Detection CVPR 2023 CIGAR: Cross-Modality Graph Reasoning for Domain Adaptive Object Detection CVPR 2023 Strip-MLP: Efficient Token Interaction for Vision MLP ICCV 2023 CiteTracker: Correlating Image and Text for Visual Tracking ICCV 2023 Learning Mask-aware CLIP Representations for Zero-Shot Segmentation NIPS 2023 Unlearnable Clusters: Towards Label-Agnostic Unlearnable Examples CVPR 2023 Mixed-Precision Neural Network Quantization via Learned Layer-Wise Importance ECCV 2022 DAS: Densely-Anchored Sampling for Deep Metric Learning ECCV 2022 Learning to Share in Networked Multi-Agent Reinforcement Learning NIPS 2022 Towards End-to-End Image Compression and Analysis with Transformers AAAI 2022 M5Product: Self-Harmonized Contrastive Learning for E-Commercial Multi-Modal Pretraining CVPR 2022 Boosting Crowd Counting via Multifaceted Attention CVPR 2022 Fine-Grained Object Classification via Self-Supervised Pose Alignment CVPR 2022 Asymptotic optimality for active learning processes UAI 2022 Direct Measure Matching for Crowd Counting IJCAI 2021 Towards More Flexible and Accurate Object Tracking With Natural Language: Algorithms and Benchmark CVPR 2021 Conformer: Local Features Coupling Global Representations for Visual Recognition ICCV 2021 Contrastive Neural Architecture Search With Neural Architecture Comparators CVPR 2021 Hierarchically and Cooperatively Learning Traffic Signal Control AAAI 2021 Learning Scalable lY=-Constrained Near-Lossless Image Compression via Joint Lossy Image and Residual Compression CVPR 2021 An Asymmetric Modeling for Action Assessment ECCV 2020 Towards Accurate Low Bit-Width Quantization with Multiple Phase Adaptations AAAI 2020 Large Batch Optimization for Object Detection: Training COCO in 12 Minutes ECCV 2020 Transductive Episodic-Wise Adaptive Metric for Few-Shot Learning ICCV 2019 Learning Long-Term Dependencies for Action Recognition With a Biologically-Inspired Deep Network ICCV 2017 Exploiting Multi-Grain Ranking Constraints for Precisely Searching Visually-Similar Vehicles ICCV 2017 A Network Framework for Noisy Label Aggregation in Social Media ACL 2017 Unsupervised Cross-Dataset Transfer Learning for Person Re-Identification CVPR 2016