Yan Xia

43 papers · 2013–2026 · 14 conferences · across top CS/AI conferences

Achievements

+12 more ↓

🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (11) 🌈 Renaissance Researcher (6) 🌍 Conference Polyglot (14)

🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (11) 🧭 Keyword Pioneer 🤝 Dynamic Duo (10) 🌱 Topic Pioneer 🧬 Topic Evolution 🔥 Unstoppable (5) 🚀 Conference Pioneer 📈 Trend Setter ⚡ Prolific Year (8) 🗃️ Keyword Collector (208) 💎 Century Club (40)

Conferences

CVPR (7) ICCV (7) ACL (6) AAAI (4) EMNLP (4) NIPS (4) NAACL (3) ECCV (2) COLING (1) CORL (1) ICML (1) IJCAI (1) INTERSPEECH (1) WACV (1)

Top co-authors

Zhou Zhao (10) Shaoguang Mao (9) Daniel Cremers (8) Furu Wei (8) Hai Huang (7) Wenshan Wu (6) Sashuai Zhou (5) Tao Ge (5) jieming zhu (5) Xun Wang (4)

Research topics

Reasoning (1) Education (1)

Keywords

large language model (7) zero-shot learning (4) point cloud (4) contrastive learning (3) place recognition (3) autonomous driving (3) multimodal learning (3) 3d reconstruction (3) video localization (2) multi-agent system (2) multimodal representation (2) domain generalization (2) 3d localization (2) lidar point cloud (2) semantic segmentation (2) prompt engineering (2) visual reasoning (2) multi-modal fusion (2) representation learning (2) cross modal generalization (2)

Papers

AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models AAAI 2026 CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation AAAI 2026 Single-Pass, Depth-Selective Reading for Multi-Aspect Sentiment Analysis ACL 2026 RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation EMNLP 2025 TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes ICCV 2025 Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations ICCV 2025 ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset WACV 2025 Bitnet.cpp: Efficient Edge Inference for Ternary LLMs ACL 2025 OPAL: Visibility-aware LiDAR-to-OpenStreetMap Place Recognition via Adaptive Radial Fusion CORL 2025 Enhancing Multimodal Unified Representations for Cross Modal Generalization ACL 2025 ALYMPICS: LLM Agents Meet Game Theory COLING 2025 Overcoming both Domain Shift and Label Shift for Referring Video Segmentation NAACL 2025 K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning NAACL 2025 Imagine While Reasoning in Space: Multimodal Visualization-of-Thought ICML 2025 Open-set Cross Modal Generalization via Multimodal Unified Representation ICCV 2025 SparseAlign: a Fully Sparse Framework for Cooperative Object Detection CVPR 2025 Reconstructing Humans with a Biomechanically Accurate Skeleton CVPR 2025 Localizing Events in Videos with Multimodal Queries CVPR 2025 CART: A Generative Cross-Modal Retrieval Framework With Coarse-To-Fine Semantic Modeling ACL 2025 CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving ICCV 2025 L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection AAAI 2025 Text2Loc: 3D Point Cloud Localization from Natural Language CVPR 2024 Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models NIPS 2024 StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis AAAI 2024 Boosting 3D Single Object Tracking with 2D Matching Distillation and 3D Pre-training ECCV 2024 Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection ECCV 2024 Temporal Fact Reasoning over Hyper-Relational Knowledge Graphs EMNLP 2024 CERD: A Comprehensive Chinese Rhetoric Dataset for Rhetorical Understanding and Generation in Essays EMNLP 2024 Bridging LiDAR Gaps: A Multi-LiDARs Domain Adaptation Dataset for 3D Semantic Segmentation IJCAI 2024 Low-code LLM: Graphical User Interface over Large Language Models NAACL 2024 Smart Word Suggestions for Writing Assistance ACL 2023 CASSPR: Cross Attention Single Scan Place Recognition ICCV 2023 Extensible Prompts for Language Models on Zero-shot Language Style Customization NIPS 2023 Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting EMNLP 2023 Scene-robust Natural Language Video Localization via Learning Domain-invariant Representations ACL 2023 Achieving Cross Modal Generalization with Multimodal Unified Representation NIPS 2023 Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models INTERSPEECH 2023 Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks NIPS 2023 Cross-Modal Background Suppression for Audio-Visual Event Localization CVPR 2022 SOE-Net: A Self-Attention and Orientation Encoding Network for Point Cloud Based Place Recognition CVPR 2021 Learning Discriminative Reconstructions for Unsupervised Outlier Removal ICCV 2015 Sparse Projections for High-Dimensional Binary Codes CVPR 2015 Joint Inverted Indexing ICCV 2013