Fengyun Rao

16 papers · 2022–2026 · 6 conferences · across top CS/AI conferences

Achievements

+7 more ↓

🗺️ Taxonomy Completionist (43) 🌍 Conference Polyglot (6) 🌈 Renaissance Researcher (7) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer

🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (6) 🔬 Deep Specialist (10) 📈 Trend Setter 💎 Century Club (15) ⚡ Prolific Year (8) 🗃️ Keyword Collector (91)

Conferences

CVPR (6) ICCV (4) AAAI (3) ECCV (1) ICLR (1) NIPS (1)

Top co-authors

Yizhou Zhou (7) Guangting Wang (3) Tianyi Wang (2) Yi Yang (2) Xiaokang Yang (2) Bo Zhang (2) Weidong Guo (2) Dacheng Yin (2) Xiaoyan Sun (2) Ke Mei (2)

Keywords

multimodal learning (4) multimodal large language model (4) video understanding (3) diffusion model (3) reinforcement learning (2) vision-language model (2) multi-modal learning (2) visual perception (2) multimodal reasoning (2) probabilistic modeling (1) data augmentation (1) preference alignment (1) temporal reasoning (1) question answering (1) image generation (1) visual question answering (1) video generation (1) action recognition (1) supervised learning (1) image captioning (1)

Papers

MMhops-R1: Multimodal Multi-hop Reasoning AAAI 2026 MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling CVPR 2025 HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization CVPR 2025 Number it: Temporal Grounding Videos like Flipping Manga CVPR 2025 Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs ICCV 2025 R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization ICCV 2025 HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models ICCV 2025 From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment ICCV 2025 PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training ICLR 2025 Inter-X: Towards Versatile Human-Human Interaction Analysis CVPR 2024 Image Captioning with Multi-Context Synthetic Data AAAI 2024 Visual Perception by Large Language Model’s Weights NIPS 2024 ReGenNet: Towards Human Action-Reaction Synthesis CVPR 2024 Spatial-Semantic Collaborative Cropping for User Generated Content AAAI 2024 Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation CVPR 2022 CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation ECCV 2022