Jingkuan Song

67 papers · 2015–2026 · 11 conferences · across top CS/AI conferences

Achievements

+13 more ↓

🌍 Conference Polyglot (11) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (15) 🏃 Academic Marathon (10)

🏃 Academic Marathon (10) 🐝 Cross-Pollinator (13) 🌈 Renaissance Researcher (10) 🧬 Topic Evolution 🔬 Deep Specialist (14) 🤝 Dynamic Duo (48) 🏆 Grand Slam 📈 Trend Setter 🗃️ Keyword Collector (277) 💎 Century Club (63) ⚡ Prolific Year (6) 🚀 Conference Pioneer 🔥 Unstoppable (9)

Conferences

IJCAI (15) CVPR (14) AAAI (12) NIPS (7) ICCV (6) ECCV (5) ACL (4) CORL (1) EMNLP (1) ICLR (1) ICML (1)

Top co-authors

Lianli Gao (49) Heng Tao Shen (30) Xianglong Liu (9) Xing Xu (9) Pengpeng Zeng (8) Qilong Zhang (6) Xiaosu Zhu (6) Hengtao Shen (6) Yuan-Fang Li (5) Tao He (5)

Keywords

multimodal learning (7) video understanding (5) attention mechanism (5) visual question answering (4) image retrieval (4) adversarial attack (4) generative adversarial network (4) scene graph generation (4) metric learning (3) graph neural network (3) convolutional neural network (3) video question answering (3) semi-supervised learning (2) social media analysis (2) unsupervised learning (2) uncertainty quantification (2) image generation (2) representation learning (2) object detection (2) few-shot learning (2)

Papers

Learning to Curate Context: Jointly Optimizing Retrieval and Prediction for Multimodal Social Media Popularity AAAI 2026 Hyper-Opinion Vagueness Quantification for Robust Multimodal Learning AAAI 2026 Debiased Orthogonal Boundary-Driven Efficient Noise Mitigation ACL 2026 De-biased Natural Language Egocentric Task Verification via Prototypical Evidence Learning AAAI 2026 From Observation to Understanding: Front-Door Adjustments with Uncertainty Calibration for Enhancing Egocentric Reasoning in LVLMs ACL 2025 Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach EMNLP 2025 Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves CVPR 2025 PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos CVPR 2025 Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation CORL 2025 Improving Multimodal Social Media Popularity Prediction via Selective Retrieval Knowledge Augmentation AAAI 2025 OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction ACL 2025 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct ACL 2025 Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization NIPS 2024 F³-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis AAAI 2024 CoIN: A Benchmark of Continual Instruction Tuning for Multimodel Large Language Models NIPS 2024 ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval CVPR 2024 DePT: Decoupled Prompt Tuning CVPR 2024 Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection ECCV 2024 RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception ECCV 2024 Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval NIPS 2023 Prototype-Based Embedding Network for Scene Graph Generation CVPR 2023 A Closer Look at Few-shot Classification Again ICML 2023 Part-Aware Transformer for Generalizable Person Re-identification ICCV 2023 DETA: Denoised Task Adaptation for Few-Shot Learning ICCV 2023 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments NIPS 2023 Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks NIPS 2022 A Differentiable Semantic Metric Approximation in Probabilistic Embedding for Cross-Modal Retrieval NIPS 2022 A Lower Bound of Hash Codes' Performance NIPS 2022 Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack CVPR 2022 Fine-Grained Predicates Learning for Scene Graph Generation CVPR 2022 Meta Distribution Alignment for Generalizable Person Re-Identification CVPR 2022 Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression CVPR 2022 Rethinking Spatial Invariance of Convolutional Networks for Object Counting CVPR 2022 Frequency Domain Model Augmentation for Adversarial Attack ECCV 2022 Towards Open-Vocabulary Scene Graph Generation with Prompt-Based Finetuning ECCV 2022 Beyond ImageNet Attack: Towards Crafting Adversarial Examples for Black-box Domains ICLR 2022 S2 Transformer for Image Captioning IJCAI 2022 Feature Space Targeted Attacks by Statistic Alignment IJCAI 2021 Towards Unsupervised Deformable-Instances Image-to-Image Translation IJCAI 2021 Exploiting Scene Graphs for Human-Object Interaction Detection ICCV 2021 From General to Specific: Informative Scene Graph Generation via Balance Adjustment ICCV 2021 RSGNet: Relation based Skeleton Graph Network for Crowded Scenes Pose Estimation AAAI 2021 Forward and Backward Information Retention for Accurate Binary Neural Networks CVPR 2020 SNEQ: Semi-Supervised Attributed Network Embedding with Attention-Based Quantisation AAAI 2020 Bottom-up and Top-down: Bidirectional Additive Net for Edge Detection IJCAI 2020 Learning from the Scene and Borrowing from the Rich: Tackling the Long Tail in Scene Graph Generation IJCAI 2020 Patch-wise Attack for Fooling Deep Neural Network ECCV 2020 Salience-Guided Cascaded Suppression Network for Person Re-Identification CVPR 2020 Graph Attention Based Proposal 3D ConvNets for Action Detection AAAI 2020 Deliberate Attention Networks for Image Captioning AAAI 2019 Perceptual Pyramid Adversarial Networks for Text-to-Image Synthesis AAAI 2019 Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval IJCAI 2019 Deep Recurrent Quantization for Generating Sequential Binary Codes IJCAI 2019 One Network for Multi-Domains: Domain Adaptive Hashing with Intersectant Generative Adversarial Networks IJCAI 2019 Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks IJCAI 2019 Localizing Unseen Activities in Video via Image Query IJCAI 2019 Structured Two-Stream Attention Network for Video Question Answering AAAI 2019 Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering AAAI 2019 Dual Conditional GANs for Face Aging and Rejuvenation IJCAI 2018 Coarse-to-fine Image Co-segmentation with Intra and Inter Rank Constraints IJCAI 2018 From Pixels to Objects: Cubic Visual Attention for Visual Question Answering IJCAI 2018 Complementary Binary Quantization for Joint Multiple Indexing IJCAI 2018 Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning IJCAI 2017 Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual Cross Retrieval ICCV 2017 Matrix Tri-Factorization With Manifold Regularizations for Zero-Shot Learning CVPR 2017 Localize Me Anywhere, Anytime: A Multi-Task Point-Retrieval Approach ICCV 2015 Optimal Graph Learning With Partial Tags and Multiple Features for Image and Video Annotation CVPR 2015