conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

Controlling Prosody in End-to-End TTS: A Case Study on Contrastive Focus Generation CONLL 2021

Encoder Fusion Network With Co-Attention Embedding for Referring Image Segmentation CVPR 2021

Pose Recognition With Cascade Transformers CVPR 2021

Scene-Intuitive Agent for Remote Embodied Visual Grounding CVPR 2021

Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views of Novel Scenes CVPR 2021

VinVL: Revisiting Visual Representations in Vision-Language Models CVPR 2021

Camera-Space Hand Mesh Recovery via Semantic Aggregation and Adaptive 2D-1D Registration CVPR 2021

Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks? CVPR 2021

Rethinking Style Transfer: From Pixels to Parameterized Brushstrokes CVPR 2021

ArtCoder: An End-to-End Method for Generating Scanning-Robust Stylized QR Codes CVPR 2021

Single Image Reflection Removal With Absorption Effect CVPR 2021

Disentangled Cycle Consistency for Highly-Realistic Virtual Try-On CVPR 2021

Mask-Embedded Discriminator With Region-Based Semantic Regularization for Semi-Supervised Class-Conditional Image Synthesis CVPR 2021

ANR: Articulated Neural Rendering for Virtual Avatars CVPR 2021

Semantic Image Matting CVPR 2021

Connecting What To Say With Where To Look by Modeling Human Attention Traces CVPR 2021

Posterior Promoted GAN With Distribution Discriminator for Unsupervised Image Synthesis CVPR 2021

PPR10K: A Large-Scale Portrait Photo Retouching Dataset With Human-Region Mask and Group-Level Consistency CVPR 2021

SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning Over Traffic Events CVPR 2021

Audio-Driven Emotional Video Portraits CVPR 2021

Probabilistic Embeddings for Cross-Modal Retrieval CVPR 2021

Learning the Best Pooling Strategy for Visual Semantic Embedding CVPR 2021

GLAVNet: Global-Local Audio-Visual Cues for Fine-Grained Material Recognition CVPR 2021

A Multiplexed Network for End-to-End, Multilingual OCR CVPR 2021

Deep RGB-D Saliency Detection With Depth-Sensitive Attention and Automatic Multi-Modal Fusion CVPR 2021