conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

Kernel-Aware Graph Prompt Learning for Few-Shot Anomaly Detection AAAI 2025

AI-generated Image Quality Assessment in Visual Communication AAAI 2025

ChatterBox: Multimodal Referring and Grounding with Chain-of-Questions AAAI 2025

TextToucher: Fine-Grained Text-to-Touch Generation AAAI 2025

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning AAAI 2025

Watch Video, Catch Keyword: Context-aware Keyword Attention for Moment Retrieval and Highlight Detection AAAI 2025

VOILA: Complexity-Aware Universal Segmentation of CT Images by Voxel Interacting with Language AAAI 2025

ParGo: Bridging Vision-Language with Partial and Global Views AAAI 2025

Overcoming Heterogeneous Data in Federated Medical Vision-Language Pre-training: A Triple-Embedding Model Selector Approach AAAI 2025

Intra and Inter Parser-Prompted Transformers for Effective Image Restoration AAAI 2025

Tracking Everything Everywhere across Multiple Cameras AAAI 2025

VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion AAAI 2025

CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs AAAI 2025

Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models AAAI 2025

From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach AAAI 2025

TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation AAAI 2025

AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring AAAI 2025

GCD: Advancing Vision-Language Models for Incremental Object Detection via Global Alignment and Correspondence Distillation AAAI 2025

RefDetector: A Simple Yet Effective Matching-based Method for Referring Expression Comprehension AAAI 2025

Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension AAAI 2025

Enhancing Fine-Grained Vision-Language Pretraining with Negative Augmented Samples AAAI 2025

Aligning Composed Query with Image via Discriminative Perception from Negative Correspondences AAAI 2025

Capturing the Unseen: Vision-Free Facial Motion Capture Using Inertial Measurement Units AAAI 2025

AnyTalk: Multi-modal Driven Multi-domain Talking Head Generation AAAI 2025

LIBA: Language Instructed Multi-granularity Bridge Assistant for 3D Visual Grounding AAAI 2025