Jinxing Zhou

18 papers · 2021–2026 · 5 conferences · across top CS/AI conferences

Achievements

+8 more ↓

🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (4) 🌈 Renaissance Researcher (7) 🏃 Academic Marathon (5) 🗺️ Taxonomy Completionist (34)

🗺️ Taxonomy Completionist (34) 🧭 Keyword Pioneer 🤝 Dynamic Duo (11) 🏆 Keyword Champion (3) 💎 Century Club (13) ⚡ Prolific Year (8) 🔥 Unstoppable (5) 🗃️ Keyword Collector (92)

Conferences

AAAI (10) CVPR (4) ECCV (2) ACL (1) EMNLP (1)

Top co-authors

Dan Guo (11) Meng Wang (8) Yiran Zhong (6) Jing Zhang (5) Xiaojun Chang (4) yuxin mao (4) Shengeng Tang (3) Yanghao Zhou (3) Hisham Cholakkal (2) Zhangbin Li (2)

Keywords

multimodal learning (4) multi-modal learning (4) audio-visual event localization (3) event localization (3) sound source localization (2) video understanding (2) audio-visual question answering (2) temporal localization (2) object tracking (2) object detection (1) question answering (1) knowledge distillation (1) zero-shot learning (1) audio-visual learning (1) attention mechanism (1) self-supervised learning (1) video segmentation (1) referring expression (1) video captioning (1) cross-modal learning (1)

Papers

MTAVG-Bench: A Diagnostic Benchmark for Multi-Talker Dialogue-Centric Audio-Video Generation ACL 2026 Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation AAAI 2026 Learning Spatial Decay for Vision Transformers AAAI 2026 A Closer Look at Knowledge Distillation in Spiking Neural Network Training AAAI 2026 CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization AAAI 2026 Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration AAAI 2025 Audio-Visual Instance Segmentation CVPR 2025 MAviS: A Multimodal Conversational Assistant For Avian Species EMNLP 2025 Towards Open-Vocabulary Audio-Visual Event Localization CVPR 2025 MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights AAAI 2025 Patch-level Sounding Object Tracking for Audio-Visual Question Answering AAAI 2025 PhysDiff: Physiology-based Dynamicity Disentangled Diffusion Model for Remote Physiological Measurement AAAI 2025 Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing AAAI 2025 Label-anticipated Event Disentanglement for Audio-Visual Video Parsing ECCV 2024 Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering AAAI 2024 Fine-Grained Audible Video Description CVPR 2023 Audio—Visual Segmentation ECCV 2022 Positive Sample Propagation Along the Audio-Visual Event Line CVPR 2021