Siliang Tang

75 papers · 2015–2026 · 13 conferences · across top CS/AI conferences

Achievements

+17 more ↓

🧭 Keyword Pioneer 🐣 Hot Topic Early Bird 🗺️ Taxonomy Completionist (11) 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (13)

🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (11) 🧭 Keyword Pioneer 🤝 Dynamic Duo (47) 👑 Triple Crown 🏆 Grand Slam 👥 Mega-Team (32) 🔬 Deep Specialist (18) 🧬 Topic Evolution 🏆 Keyword Champion ⚡ Prolific Year (10) ❓ The Questioner 🗃️ Keyword Collector (304) 💎 Century Club (72) 🚀 Conference Pioneer 🔥 Unstoppable (7) 📈 Trend Setter

Conferences

ACL (12) AAAI (9) CVPR (9) EMNLP (9) ICCV (9) ICML (9) IJCAI (7) NIPS (4) IJCNLP (2) NAACL (2) AISTATS (1) COLING (1) ICLR (1)

Top co-authors

Yueting Zhuang (48) Juncheng Li (33) Wenqiao Zhang (18) Fei Wu (15) Kaihang Pan (12) Qifan Yu (9) Minghe Gao (8) Tat-Seng Chua (8) Hanwang Zhang (7) Zhigang Chen (7)

Keywords

multimodal large language model (8) large language model (7) multimodal learning (5) distant supervision (5) relation extraction (5) multi-instance learning (4) reinforcement learning (4) graph neural network (4) few-shot learning (4) language model (4) entity linking (3) question answering (3) scene graph (3) representation learning (3) vision-language model (3) adversarial training (2) active learning (2) fine-grained classification (2) domain generalization (2) image generation (2)

Papers

Evolving Generalist Virtual Agents with Generative and Associative Memory AAAI 2026 PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models ACL 2026 MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models ACL 2026 The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation ICCV 2025 Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness ICCV 2025 On Path to Multimodal Generalist: General-Level and General-Bench ICML 2025 What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities ICML 2025 Meta-Reflection: A Feedback-Free Reflection Learning Framework ACL 2025 TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition ACL 2025 Align2LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation ACL 2025 ChatMap: Mining Human Thought Processes for Customer Service Chatbots via Multi-Agent Collaboration ACL 2025 Choice is what matters after Attention AISTATS 2025 ITERATE: Image-Text Enhancement, Retrieval, and Alignment for Transmodal Evolution with LLMs COLING 2025 Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program ICCV 2025 STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training CVPR 2025 Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens CVPR 2025 AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea CVPR 2025 Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining ICCV 2025 Logic Distillation: Learning from Code Function by Function for Decision-making Tasks IJCAI 2025 Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark ICML 2025 HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation ICML 2025 Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration NIPS 2024 Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain Transfer CVPR 2024 Efficient Tuning and Inference for Large Language Models on Textual Graphs IJCAI 2024 NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models ICML 2024 Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions ICLR 2024 Bridging Local Details and Global Context in Text-Attributed Graphs EMNLP 2024 Data Shunt: Collaboration of Small and Large Models for Lower Costs and Better Performance AAAI 2024 HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data CVPR 2024 DIEM: Decomposition-Integration Enhancing Multimodal Insights CVPR 2024 Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning ICML 2024 Auto-Encoding Morph-Tokens for Multimodal LLM ICML 2024 Unified Generative and Discriminative Training for Multi-modal Large Language Models NIPS 2024 T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text ACL 2024 Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World ICCV 2023 KICE: A Knowledge Consolidation and Expansion Framework for Relation Extraction AAAI 2023 SkillQG: Learning to Generate Question for Reading Comprehension Assessment ACL 2023 Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization for Few-shot Generalization EMNLP 2023 Global Structure Knowledge-Guided Relation Extraction Method for Visually-Rich Document EMNLP 2023 Reasoning Makes Good Annotators : An Automatic Task-specific Rules Distilling Framework for Low-resource Relation Extraction EMNLP 2023 Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial Labels ICCV 2023 Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models ICCV 2023 Continual Vision-Language Representation Learning with Off-Diagonal Information ICML 2023 SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference IJCAI 2023 On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals AAAI 2022 Feeding What You Need by Understanding What You Learned ACL 2022 Fine-grained Category Discovery under Coarse-grained supervision with Hierarchical Weighted Self-contrastive Learning EMNLP 2022 QRelScore: Better Evaluating Generated Questions with Deeper Understanding of Context-aware Relevance EMNLP 2022 Mask the Correct Tokens: An Embarrassingly Simple Approach for Error Correction EMNLP 2022 Fine-Grained Semantically Aligned Vision-Language Pre-Training NIPS 2022 Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning CVPR 2022 Learning To Learn by Jointly Optimizing Neural Architecture and Weights CVPR 2022 Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile ICML 2022 RoSA: A Robust Self-Aligned Framework for Node-Node Graph Contrastive Learning IJCAI 2022 Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference ICCV 2021 Learning to Generate Visual Questions with Noisy Supervision NIPS 2021 CIL: Contrastive Instance Learning Framework for Distantly Supervised Relation Extraction ACL 2021 Disentangled Motif-aware Graph Learning for Phrase Grounding AAAI 2021 Empower Distantly Supervised Relation Extraction with Collaborative Adversarial Training AAAI 2021 Consensus Graph Representation Learning for Better Grounded Image Captioning AAAI 2021 CIL: Contrastive Instance Learning Framework for Distantly Supervised Relation Extraction IJCNLP 2021 Semi-Supervised Active Learning for Semi-Supervised Models: Exploit Adversarial Examples With Graph-Based Virtual Labels ICCV 2021 Rethinking the Bottom-Up Framework for Query-Based Video Localization AAAI 2020 Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description IJCAI 2020 Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation CVPR 2020 Neural-DINF: A Neural Network based Framework for Measuring Document Influence ACL 2020 Alleviate Dataset Shift Problem in Fine-grained Entity Typing with Virtual Adversarial Training IJCAI 2020 Learning Dynamic Context Augmentation for Global Entity Linking EMNLP 2019 Cross-Relation Cross-Bag Attention for Distantly-Supervised Relation Extraction AAAI 2019 Posterior-regularized REINFORCE for Instance Selection in Distant Supervision NAACL 2019 Learning Dynamic Context Augmentation for Global Entity Linking IJCNLP 2019 KCAT: A Knowledge-Constraint Typing Annotation Tool ACL 2019 Improving Distantly-supervised Entity Typing with Compact Latent Space Clustering NAACL 2019 NITE: A Neural Inductive Teaching Framework for Domain Specific NER EMNLP 2017 Sketch the Storyline with CHARCOAL: A Non-Parametric Approach IJCAI 2015