Zhanhui Kang

26 papers · 2021–2026 · 10 conferences · across top CS/AI conferences

Achievements

+10 more ↓

🏃 Academic Marathon (5) 🌉 Interdisciplinary Bridge 🐝 Cross-Pollinator (9) 🌍 Conference Polyglot (10) 🌈 Renaissance Researcher (7)

🌈 Renaissance Researcher (7) 🗺️ Taxonomy Completionist (57) 🧭 Keyword Pioneer 🤝 Dynamic Duo (19) 👥 Mega-Team (26) 🧬 Topic Evolution ⚡ Prolific Year (14) 🔥 Unstoppable (5) 🗃️ Keyword Collector (126) 💎 Century Club (24)

Conferences

AAAI (6) ACL (5) EMNLP (5) NAACL (3) ICML (2) COLING (1) CVPR (1) ICCV (1) IJCAI (1) IJCNLP (1)

Top co-authors

Xingwu Sun (20) Ruobing Xie (17) Di Wang (6) Shuaipeng Li (4) Zhen Yang (4) Fengzong Lian (4) Xirong Li (3) An Wang (3) Weidong Han (3) Yu Wang (3)

Keywords

multimodal large language model (3) large language model (3) visual reasoning (2) vision-language model (2) evaluation benchmark (2) diffusion model (2) adversarial attack (2) transformer architecture (2) sequential recommendation (2) mixture of expert (2) named entity recognition (2) parameter efficiency (2) visual question answering (2) neural network (2) state space model (2) data augmentation (2) multimodal learning (2) preference learning (1) sequence modeling (1) transfer learning (1)

Papers

Beyond Ranking: Fine-Grained Diagnostics and Self-Improvement for MLLMs ACL 2026 TransMamba: A Sequence-Level Hybrid Transformer-Mamba Language Model AAAI 2026 Enhancing Contrastive Learning Inspired by the Philosophy of “The Blind Men and the Elephant” AAAI 2025 HMoE: Heterogeneous Mixture of Experts for Language Modeling EMNLP 2025 Frozen Language Models Are Gradient Coherence Rectifiers in Vision Transformers AAAI 2025 Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization ACL 2025 PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset CVPR 2025 Sparsifying Mamba EMNLP 2025 The Security Threat of Compressed Projectors in Large Vision-Language Models EMNLP 2025 Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval ICCV 2025 Autonomy-of-Experts Models ICML 2025 Scaling Laws for Floating–Point Quantization Training ICML 2025 QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models NAACL 2025 Language Models “Grok” to Copy NAACL 2025 Continuous Speech Tokenizer in Text To Speech NAACL 2025 Exploring Forgetting in Large Language Model Pre-Training ACL 2025 Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning AAAI 2024 SeeDRec: Sememe-based Diffusion for Sequential Recommendation IJCAI 2024 LightVLP: A Lightweight Vision-Language Pre-training via Gated Interactive Masked AutoEncoders COLING 2024 DINGO: Towards Diverse and Fine-Grained Instruction-Following Evaluation AAAI 2024 Plug-In Diffusion Model for Sequential Recommendation AAAI 2024 TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities ACL 2023 EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs EMNLP 2023 An Anchor-based Relative Position Embedding Method for Cross-Modal Tasks EMNLP 2022 TexSmart: A System for Enhanced Natural Language Understanding ACL 2021 TexSmart: A System for Enhanced Natural Language Understanding IJCNLP 2021