Heng Tao Shen

78 papers · 2015–2026 · 12 conferences · across top CS/AI conferences

Achievements

+15 more ↓

🌍 Conference Polyglot (12) 🧭 Keyword Pioneer 🗺️ Taxonomy Completionist (12) 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (10)

🏃 Academic Marathon (10) 🐝 Cross-Pollinator (13) 🌈 Renaissance Researcher (10) 🏠 Conference Loyalist (24) 🧬 Topic Evolution 🏆 Grand Slam 🤝 Dynamic Duo (28) 🔬 Deep Specialist (18) 🚀 Conference Pioneer 🗃️ Keyword Collector (332) 💎 Century Club (76) 📈 Trend Setter 🔥 Unstoppable (11) ❓ The Questioner ⚡ Prolific Year (9)

Conferences

CVPR (24) AAAI (17) IJCAI (10) ICCV (8) ECCV (5) ICLR (3) ICML (3) ACL (2) CORL (2) NIPS (2) EMNLP (1) JMLR (1)

Top co-authors

Jingkuan Song (30) Lianli Gao (28) Xing Xu (23) Fumin Shen (19) Yang Yang (17) Xiaofeng Zhu (7) Dongxiang Zhang (6) Guoqing Wang (6) Zi Huang (5) Zheng Wang (5)

Keywords

multimodal learning (8) contrastive learning (6) graph neural network (5) attention mechanism (5) semantic segmentation (4) representation learning (4) domain generalization (4) self-supervised learning (4) metric learning (4) image retrieval (3) adversarial attack (3) visual attention (3) zero-shot learning (3) convolutional neural network (3) vision-language model (3) multi-modal learning (3) domain adaptation (3) unsupervised learning (3) object detection (3) video understanding (3)

Papers

De-biased Natural Language Egocentric Task Verification via Prototypical Evidence Learning AAAI 2026 Hyper-Opinion Vagueness Quantification for Robust Multimodal Learning AAAI 2026 Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation CORL 2025 Analytical Construction on Geometric Architectures: Transitioning from Static to Temporal Link Prediction ICML 2025 CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer AAAI 2025 TAU-106K: A New Dataset for Comprehensive Understanding of Traffic Accident ICLR 2025 CoSMIC: Continual Self-supervised Learning for Multi-Domain Medical Imaging via Conditional Mutual Information Maximization ICCV 2025 Implicit Counterfactual Learning for Audio-Visual Segmentation ICCV 2025 Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves CVPR 2025 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct ACL 2025 PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos CVPR 2025 From Observation to Understanding: Front-Door Adjustments with Uncertainty Calibration for Enhancing Egocentric Reasoning in LVLMs ACL 2025 CoIN: A Benchmark of Continual Instruction Tuning for Multimodel Large Language Models NIPS 2024 Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization NIPS 2024 Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance CORL 2024 Adaptive Uncertainty-Based Learning for Text-Based Person Retrieval AAAI 2024 ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding AAAI 2024 Weakly-Supervised Mirror Detection via Scribble Annotations AAAI 2024 T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering AAAI 2024 Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion CVPR 2024 DePT: Decoupled Prompt Tuning CVPR 2024 ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval CVPR 2024 Ensemble Diversity Facilitates Adversarial Transferability CVPR 2024 Diffusion Models as Optimizers for Efficient Planning in Offline RL ECCV 2024 ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees EMNLP 2024 An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization ICLR 2024 Self-Supervised Heterogeneous Graph Learning: a Homophily and Heterogeneity View ICLR 2024 Towards Dynamic-Prompting Collaboration for Source-Free Domain Adaptation IJCAI 2024 Mentored Learning: Improving Generalization and Convergence of Student Learner JMLR 2024 Part-Aware Transformer for Generalizable Person Re-identification ICCV 2023 ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction ICCV 2023 Multilateral Semantic Relations Modeling for Image Text Retrieval CVPR 2023 Multivariate, Multi-Frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Recognition in Conversation CVPR 2023 Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement CVPR 2023 Disentangled Multiplex Graph Representation Learning ICML 2023 A Universal Unbiased Method for Classification from Aggregate Observations ICML 2023 Multiplex Graph Representation Learning via Common and Private Information Mining AAAI 2023 Fine-Grained Predicates Learning for Scene Graph Generation CVPR 2022 TVT: Three-Way Vision Transformer through Multi-Modal Hypersphere Learning for Zero-Shot Sketch-Based Image Retrieval AAAI 2022 Semi-Supervised Video Paragraph Grounding With Contrastive Encoder CVPR 2022 Meta Distribution Alignment for Generalizable Person Re-Identification CVPR 2022 Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression CVPR 2022 From General to Specific: Informative Scene Graph Generation via Balance Adjustment ICCV 2021 Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos CVPR 2021 Enhancing Audio-Visual Association with Self-Supervised Curriculum Learning AAAI 2021 RSGNet: Relation based Skeleton Graph Network for Crowded Scenes Pose Estimation AAAI 2021 PoseGTAC: Graph Transformer Encoder-Decoder with Atrous Convolution for 3D Human Pose Estimation IJCAI 2021 Webly Supervised Fine-Grained Recognition: Benchmark Datasets and an Approach ICCV 2021 Patch-wise Attack for Fooling Deep Neural Network ECCV 2020 Bottom-up and Top-down: Bidirectional Additive Net for Edge Detection IJCAI 2020 Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval AAAI 2020 What Machines See Is Not What They Get: Fooling Scene Text Recognition Models With Adversarial Text Images CVPR 2020 Universal Weighting Metric Learning for Cross-Modal Matching CVPR 2020 Searching for Actions on the Hyperbole CVPR 2020 Template-Based Math Word Problem Solvers with Recursive Neural Networks AAAI 2019 Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval IJCAI 2019 Deep Recurrent Quantization for Generating Sequential Binary Codes IJCAI 2019 Deliberate Attention Networks for Image Captioning AAAI 2019 Structured Two-Stream Attention Network for Video Question Answering AAAI 2019 Perceptual Pyramid Adversarial Networks for Text-to-Image Synthesis AAAI 2019 MR-NET: Exploiting Mutual Relation for Visual Relationship Detection AAAI 2019 Sequence-To-Sequence Domain Adaptation Network for Robust Text Image Recognition CVPR 2019 Exact Adversarial Attack to Image Captioning via Structured Output Learning With Latent Variables CVPR 2019 Generative Domain-Migration Hashing for Sketch-to-Image Retrieval ECCV 2018 Dual Conditional GANs for Face Aging and Rejuvenation IJCAI 2018 Coarse-to-fine Image Co-segmentation with Intra and Inter Rank Constraints IJCAI 2018 Highly-Economized Multi-View Binary Compression for Scalable Image Clustering ECCV 2018 From Pixels to Objects: Cubic Visual Attention for Visual Question Answering IJCAI 2018 TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights ECCV 2018 Matrix Tri-Factorization With Manifold Regularizations for Zero-Shot Learning CVPR 2017 Leveraging Weak Semantic Relevance for Complex Video Event Classification ICCV 2017 Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning IJCAI 2017 Multi-Attention Network for One Shot Learning CVPR 2017 What's Wrong With That Object? Identifying Images of Unusual Objects by Modelling the Detection Score Distribution CVPR 2016 A Unified Framework for Discrete Spectral Clustering IJCAI 2016 Supervised Discrete Hashing CVPR 2015 Optimal Graph Learning With Partial Tags and Multiple Features for Image and Video Annotation CVPR 2015 Learning Binary Codes for Maximum Inner Product Search ICCV 2015