Artificial Intelligence › Core AI ›

Multi-Modal Learning

1457 directly classified papers

Papers per year

Papers

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective NIPS 2023

The ToMCAT Dataset NIPS 2023

Exploring Diverse In-Context Configurations for Image Captioning NIPS 2023

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab NIPS 2023

Hierarchical Adaptive Value Estimation for Multi-modal Visual Reinforcement Learning NIPS 2023

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models NIPS 2023

What to Fuse and How to Fuse: Exploring Emotion and Personality Fusion Strategies for Explainable Mental Disorder Detection ACL 2023

Towards Unified, Explainable, and Robust Multisensory Perception AAAI 2023

A Composite Multi-Attention Framework for Intraoperative Hypotension Early Warning AAAI 2023

See How You Read? Multi-Reading Habits Fusion Reasoning for Multi-Modal Fake News Detection AAAI 2023

Test of Time: Instilling Video-Language Models With a Sense of Time CVPR 2023

Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA AAAI 2023

Joint Multimodal Entity-Relation Extraction Based on Edge-Enhanced Graph Alignment Network and Word-Pair Relation Tagging AAAI 2023

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity AAAI 2023

Accommodating Audio Modality in CLIP for Multimodal Processing AAAI 2023

Conceptual Reinforcement Learning for Language-Conditioned Tasks AAAI 2023

Bootstrapping Multi-View Representations for Fake News Detection AAAI 2023

Graph Structure Learning on User Mobility Data for Social Relationship Inference AAAI 2023

Phrase-Level Temporal Relationship Mining for Temporal Sentence Localization AAAI 2023

Language-Assisted 3D Feature Learning for Semantic Scene Understanding AAAI 2023

Video Event Extraction via Tracking Visual States of Arguments AAAI 2023

VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning AAAI 2023

Skating-Mixer: Long-Term Sport Audio-Visual Modeling with MLPs AAAI 2023

Reject Decoding via Language-Vision Models for Text-to-Image Synthesis AAAI 2023

Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning AAAI 2023