← Learning Types

Deep Learning › Learning Types ›

Multi-Modal Learning

3194 directly classified papers

Papers per year

Papers

CSECU-DSG at SemEval-2021 Task 6: Orchestrating Multimodal Neural Architectures for Identifying Persuasion Techniques in Texts and Images ACL 2021

NLPHut’s Participation at WAT2021 ACL 2021

ANVITA Machine Translation System for WAT 2021 MultiIndicMT Shared Task ACL 2021

VL-BERT+: Detecting Protected Groups in Hateful Multimodal Memes ACL 2021

Racist or Sexist Meme? Classifying Memes beyond Hateful ACL 2021

Multimodal or Text? Retrieval or BERT? Benchmarking Classifiers for the Shared Task on Hateful Memes ACL 2021

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation CVPR 2021

Positive Sample Propagation Along the Audio-Visual Event Line CVPR 2021

Audio-Visual Instance Discrimination with Cross-Modal Agreement CVPR 2021

Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval CVPR 2021

Structured Multi-Level Interaction Network for Video Moment Localization via Language Query CVPR 2021

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting CVPR 2021

Cross Modal Focal Loss for RGBD Face Anti-Spoofing CVPR 2021

Improving OCR-Based Image Captioning by Incorporating Geometrical Relationship CVPR 2021

FAIEr: Fidelity and Adequacy Ensured Image Caption Evaluation CVPR 2021

Model-Aware Gesture-to-Gesture Translation CVPR 2021

Home Action Genome: Cooperative Compositional Action Understanding CVPR 2021

Defending Multimodal Fusion Models Against Single-Source Adversaries CVPR 2021

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification CVPR 2021

M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-Training CVPR 2021

LaPred: Lane-Aware Prediction of Multi-Modal Future Trajectories of Dynamic Agents CVPR 2021

Learning Better Visual Dialog Agents With Pretrained Visual-Linguistic Representation CVPR 2021

View-Guided Point Cloud Completion CVPR 2021

Looking Into Your Speech: Learning Cross-Modal Affinity for Audio-Visual Speech Separation CVPR 2021

Move2Hear: Active Audio-Visual Source Separation ICCV 2021