Shuhei Kurita

26 papers · 2017–2026 · 11 conferences · across top CS/AI conferences

Achievements

+10 more ↓

🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (10) 🏃 Academic Marathon (8) 🌈 Renaissance Researcher (8) 🗺️ Taxonomy Completionist (54)

🗺️ Taxonomy Completionist (54) 🧭 Keyword Pioneer 🐣 Hot Topic Early Bird 🏆 Keyword Champion (2) 🔬 Deep Specialist (11) 🧬 Topic Evolution ⚡ Prolific Year (7) 🔥 Unstoppable (5) 🗃️ Keyword Collector (111) 💎 Century Club (25)

Conferences

ACL (4) COLING (4) ICCV (4) NAACL (4) EMNLP (3) CVPR (2) AACL (1) EACL (1) ICLR (1) IJCNLP (1) NIPS (1)

Top co-authors

Daisuke Kawahara (7) Taiki Miyanishi (7) Nakamasa Inoue (4) Koki Maeda (3) Sadao Kurohashi (3) Naoaki Okazaki (3) Daichi Azuma (3) Eri Onami (3) Jungdae Lee (2) Motoaki Kawanabe (2)

Keywords

multimodal learning (8) japanese language (4) large language model (2) vision-language model (2) referring expression comprehension (2) 360-degree image (2) object localization (2) machine translation (2) multimodal dataset (2) image-text pair (2) action recognition (2) visual question answering (2) transition-based parsing (2) image captioning (2) object tracking (2) multi-task learning (2) egocentric vision (2) 3d scene understanding (2) spatial reasoning (2) knowledge distillation (1)

Papers

Demystifying Mixed Outcomes of Self-Training: Pre-training Analyses on Non-Toy LLMs EACL 2026 Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model NAACL 2025 Developing Japanese CLIP Models Leveraging an Open-weight LLM for Large-scale Dataset Translation NAACL 2025 Referring Expression Comprehension for Small Objects ICCV 2025 Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision CVPR 2025 LegalViz: Legal Text Visualization by Text To Diagram Generation NAACL 2025 GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields ICCV 2025 CityNav: A Large-Scale Dataset for Real-World Aerial Navigation ICCV 2025 JDocQA: Japanese Document Question Answering Dataset for Generative Language Models COLING 2024 SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition ACL 2024 Text360Nav: 360-Degree Image Captioning Dataset for Urban Pedestrians Navigation COLING 2024 Investigating Web Corpus Filtering Methods for Language Model Development in Japanese NAACL 2024 ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes EMNLP 2023 Language and Robotics: Toward Building Robots Coexisting with Human Society Using Language Interface AACL 2023 CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data NIPS 2023 Query-based Image Captioning from Multi-context 360cdegree Images EMNLP 2023 RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D ICCV 2023 Language and Robotics: Toward Building Robots Coexisting with Human Society Using Language Interface IJCNLP 2023 ScanQA: 3D Question Answering for Spatial Scene Understanding CVPR 2022 Iterative Span Selection: Self-Emergence of Resolving Orders in Semantic Role Labeling COLING 2022 Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows COLING 2022 Co-Teaching Student-Model through Submission Results of Shared Task EMNLP 2021 Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes' Rule ICLR 2021 Multi-Task Semantic Dependency Parsing with Policy Gradient for Learning Easy-First Strategies ACL 2019 Neural Adversarial Training for Semi-supervised Japanese Predicate-argument Structure Analysis ACL 2018 Neural Joint Model for Transition-based Chinese Syntactic Analysis ACL 2017