Siteng Huang

18 papers · 2021–2026 · 6 conferences · across top CS/AI conferences

Achievements

+8 more ↓

🌉 Interdisciplinary Bridge 🌈 Renaissance Researcher (6) 🌍 Conference Polyglot (6) 🏃 Academic Marathon (5) 🗺️ Taxonomy Completionist (32)

🐣 Hot Topic Early Bird 🌍 Conference Polyglot (6) 🏃 Academic Marathon (5) 🤝 Dynamic Duo (12) ⚡ Prolific Year (6) 💎 Century Club (14) 🗃️ Keyword Collector (65) 🔥 Unstoppable (5)

Conferences

AAAI (7) CVPR (5) ECCV (3) CORL (1) ICCV (1) ICLR (1)

Top co-authors

Donglin Wang (14) Min Zhang (7) Pengxiang Ding (7) Biao Gong (4) Wei Zhao (4) Han Zhao (4) Xuyang Liu (3) Yutong Feng (3) Xinyang Tong (2) Honggang Chen (2)

Keywords

multimodal learning (3) few-shot learning (2) vision-language model (2) representation learning (2) text-to-image generation (2) diffusion model (2) prompt tuning (2) imitation learning (1) image synthesis (1) action recognition (1) attention mechanism (1) efficient computing (1) policy learning (1) unsupervised domain adaptation (1) self-supervised learning (1) prompt learning (1) efficient inference (1) transfer learning (1) cross-modal retrieval (1) dexterous grasping (1)

Papers

Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models AAAI 2026 Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration AAAI 2026 Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors AAAI 2026 VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model AAAI 2026 Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation CORL 2025 Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference AAAI 2025 CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction ICCV 2025 Accelerating Diffusion Transformers with Token-wise Feature Caching ICLR 2025 Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning CVPR 2024 QUAR-VLA: Vision-Language-Action Model for Quadruped Robots ECCV 2024 Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation AAAI 2024 Check Locate Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation CVPR 2024 Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation CVPR 2024 PiTe: Pixel-Temporal Alignment for Large Video-Language Model ECCV 2024 VoP: Text-Video Co-Operative Prompt Tuning for Cross-Modal Retrieval CVPR 2023 Tree Structure-Aware Few-Shot Image Classification via Hierarchical Aggregation ECCV 2022 Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition AAAI 2021 Pareto Self-Supervised Training for Few-Shot Learning CVPR 2021