Karan Sikka

17 papers · 2016–2025 · 9 conferences · across top CS/AI conferences

Achievements

+11 more ↓

🌉 Interdisciplinary Bridge 🌈 Renaissance Researcher (6) 🏃 Academic Marathon (9) 🌍 Conference Polyglot (9) 🗺️ Taxonomy Completionist (48)

🗺️ Taxonomy Completionist (48) 🧭 Keyword Pioneer 🐣 Hot Topic Early Bird 🧬 Topic Evolution 🤝 Dynamic Duo (14) ⚡ Prolific Year (5) 🚀 Conference Pioneer 💎 Century Club (17) 📈 Trend Setter 🗃️ Keyword Collector (95) ❓ The Questioner (2)

Conferences

CVPR (4) EMNLP (3) ICCV (2) IJCNLP (2) WACV (2) ACL (1) EACL (1) ECCV (1) NAACL (1)

Top co-authors

Ajay Divakaran (14) Xiao Lin (3) Gaurav Sharma (3) Michael Cogswell (3) Giedrius Burachas (2) Julia Kruk (2) Heng Ji (2) Yangyi Chen (2) Arijit Ray (2) Meng Ye (2)

Keywords

multimodal learning (6) visual question answering (4) chain-of-thought reasoning (2) deep multimodal classifier (2) question generation (2) text classification (2) intent detection (2) content moderation (2) answer consistency (2) large language model (2) data augmentation (2) vision-language model (2) weakly supervised learning (2) social media analysis (1) claim verification (1) in-context learning (1) neural network security (1) zero-shot learning (1) multilingual nlp (1) image captioning (1)

Papers

A Video is Worth 10000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval WACV 2025 Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning ACL 2024 DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback CVPR 2024 Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification EMNLP 2024 Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models NAACL 2024 Multilingual Content Moderation: A Case Study on Reddit EACL 2023 TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models ICCV 2023 Challenges in Procedural Multimodal Machine Comprehension: A Novel Way To Benchmark WACV 2022 Dual-Key Multimodal Backdoors for Visual Question Answering CVPR 2022 Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment ICCV 2019 Integrating Text and Image: Determining Multimodal Document Intent in Instagram Posts IJCNLP 2019 Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation IJCNLP 2019 Integrating Text and Image: Determining Multimodal Document Intent in Instagram Posts EMNLP 2019 Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation EMNLP 2019 Zero-Shot Object Detection ECCV 2018 AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos CVPR 2017 LOMo: Latent Ordinal Model for Facial Analysis in Videos CVPR 2016