conftrace_

multimodal learning

4622 papers

Explore in graph

Co-occurring keywords

large language model (12755) vision-language model (2235) visual question answering (1000) video understanding (1647) multi-modal learning (1276) contrastive learning (3979) representation learning (6174) transfer learning (5442) zero-shot learning (3637) vision language model (752)

Papers

Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer ACL 2020

Low Rank Fusion based Transformers for Multimodal Sequences ACL 2020

Improving Image Captioning with Better Use of Caption ACL 2020

Knowledge Supports Visual Language Grounding: A Case Study on Colour Terms ACL 2020

On the Utility of Audiovisual Dialog Technologies and Signal Analytics for Real-time Remote Monitoring of Depression Biomarkers ACL 2020

Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction identification ACL 2020

AI Sensing for Robotics using Deep Learning based Visual and Language Modeling ACL 2020

Adaptive Transformers for Learning Multimodal Representations ACL 2020

Stock Embeddings Acquired from News Articles and Price History, and an Application to Portfolio Optimization ACL 2020

TVQA+: Spatio-Temporal Grounding for Video Question Answering ACL 2020

A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks ACL 2020

Understanding Advertisements with BERT ACL 2020

Towards Emotion-aided Multi-modal Dialogue Act Classification ACL 2020

Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA ACL 2020

Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products AAAI 2020

Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers AAAI 2020

MultiQT: Multimodal learning for real-time question tracking in speech ACL 2020

STEP: Spatial Temporal Graph Convolutional Networks for Emotion Perception from Gaits AAAI 2020

M3ER: Multiplicative Multimodal Emotion Recognition using Facial, Textual, and Speech Cues AAAI 2020

Modelling Form-Meaning Systematicity with Linguistic and Visual Features AAAI 2020

Multimodal and Multiresolution Speech Recognition with Transformers ACL 2020

Image-Chat: Engaging Grounded Conversations ACL 2020

Cross-media Structured Common Space for Multimedia Event Extraction ACL 2020

Fatality Killed the Cat or: BabelPic, a Multimodal Dataset for Non-Concrete Concepts ACL 2020

Cross-modal Coherence Modeling for Caption Generation ACL 2020