conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

LIFT: Learning 4D LiDAR Image Fusion Transformer for 3D Object Detection CVPR 2022

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks CVPR 2022

Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics AAAI 2022

BMU-MoCo: Bidirectional Momentum Update for Continual Video-Language Modeling NIPS 2022

Multi-Lingual Acquisition on Multimodal Pre-training for Cross-modal Retrieval NIPS 2022

Robustness Analysis of Video-Language Models Against Visual and Language Perturbations NIPS 2022

D-vlog: Multimodal Vlog Dataset for Depression Detection AAAI 2022

Finding Fallen Objects via Asynchronous Audio-Visual Integration CVPR 2022

Nice Perfume. How Long Did You Marinate in It? Multimodal Sarcasm Explanation AAAI 2022

More Than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech CVPR 2022

Interpretabilty of Speech Emotion Recognition modelled using Self-Supervised Speech and Text Pre-Trained Embeddings INTERSPEECH 2022

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Muti-Person Video INTERSPEECH 2022

CNN-based Audio Event Recognition for Automated Violence Classification and Rating for Prime Video Content INTERSPEECH 2022

End-to-End Audio-Visual Neural Speaker Diarization INTERSPEECH 2022

Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset EMNLP 2022

Grafting Pre-trained Models for Multimodal Headline Generation EMNLP 2022

FCGCL: Fine- and Coarse-Granularity Contrastive Learning for Speech Translation EMNLP 2022

Multimodal Knowledge Learning for Named Entity Disambiguation EMNLP 2022

Multilingual Multimodal Learning with Machine Translated Text EMNLP 2022

PM2F2N: Patient Multi-view Multi-modal Feature Fusion Networks for Clinical Outcome Prediction EMNLP 2022

DocFin: Multimodal Financial Prediction and Bias Mitigation using Semi-structured Documents EMNLP 2022

SMARTAVE: Structured Multimodal Transformer for Product Attribute Value Extraction EMNLP 2022

Contrastive Learning with Expectation-Maximization for Weakly Supervised Phrase Grounding EMNLP 2022

FigMemes: A Dataset for Figurative Language Identification in Politically-Opinionated Memes EMNLP 2022

Positional Encoding for Capturing Modality Specific Cadence for Emotion Detection INTERSPEECH 2022