← Learning Types

Machine Learning › Learning Types ›

Multi-Modal Learning

1213 directly classified papers

Papers per year

Papers

Penalizing Divergence: Multi-Parallel Translation for Low-Resource Languages of North America COLING 2022

Multilingual and Multimodal Topic Modelling with Pretrained Embeddings COLING 2022

Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows COLING 2022

Multimodal Semi-supervised Learning for Disaster Tweet Classification COLING 2022

Document-level Biomedical Relation Extraction Based on Multi-Dimensional Fusion Information and Multi-Granularity Logical Reasoning COLING 2022

Different Data, Different Modalities! Reinforced Data Splitting for Effective Multimodal Information Extraction from Social Media Posts COLING 2022

CoHS-CQG: Context and History Selection for Conversational Question Generation COLING 2022

Using Multi-Encoder Fusion Strategies to Improve Personalized Response Selection COLING 2022

Improving Single-Image Defocus Deblurring: How Dual-Pixel Images Help Through Multi-Task Learning WACV 2022

SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval WACV 2022

Co-Segmentation Aided Two-Stream Architecture for Video Captioning WACV 2022

Multi-Level Attentive Adversarial Learning With Temporal Dilation for Unsupervised Video Domain Adaptation WACV 2022

Cross-Modal Coherence for Text-to-Image Retrieval AAAI 2022

Syntactic Multi-view Learning for Open Information Extraction EMNLP 2022

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning AAAI 2022

Attribute-Based Progressive Fusion Network for RGBT Tracking AAAI 2022

Contrastive Language-Image Pre-Training with Knowledge Graphs NIPS 2022

Multimodal Clustering with Role Induced Constraints for Speaker Diarization INTERSPEECH 2022

ASR2K: Speech Recognition for Around 2000 Languages without Audio INTERSPEECH 2022

Non-Linear Pairwise Language Mappings for Low-Resource Multilingual Acoustic Model Fusion INTERSPEECH 2022

Graph-based Multi-View Fusion and Local Adaptation: Mitigating Within-Household Confusability for Speaker Identification INTERSPEECH 2022

CoCA-MDD: A Coupled Cross-Attention based Framework for Streaming Mispronunciation Detection and Diagnosis INTERSPEECH 2022

Confusion Detection for Adaptive Conversational Strategies of An Oral Proficiency Assessment Interview Agent INTERSPEECH 2022

Predicting Emotional Intensity in Political Debates via Non-verbal Signals INTERSPEECH 2022

Audio Visual Multi-Speaker Tracking with Improved GCF and PMBM Filter INTERSPEECH 2022