conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation NIPS 2023

Textually Pretrained Speech Language Models NIPS 2023

Holistic Evaluation of Text-to-Image Models NIPS 2023

Robust Contrastive Language-Image Pretraining against Data Poisoning and Backdoor Attacks NIPS 2023

MuSe-GNN: Learning Unified Gene Representation From Multimodal Biological Graph Data NIPS 2023

DISCOVER: Making Vision Networks Interpretable via Competition and Dissection NIPS 2023

MultiMoDN—Multimodal, Multi-Task, Interpretable Modular Networks NIPS 2023

BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing NIPS 2023

Foundation Model is Efficient Multimodal Multitask Model Selector NIPS 2023

Perception Test: A Diagnostic Benchmark for Multimodal Video Models NIPS 2023

Geodesic Multi-Modal Mixup for Robust Fine-Tuning NIPS 2023

CoLLAT: On Adding Fine-grained Audio Understanding to Language Models using Token-Level Locked-Language Tuning NIPS 2023

American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers NIPS 2023

Semantic HELM: A Human-Readable Memory for Reinforcement Learning NIPS 2023

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting NIPS 2023

Training Transitive and Commutative Multimodal Transformers with LoReTTa NIPS 2023

DVSOD: RGB-D Video Salient Object Detection NIPS 2023

Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities NIPS 2023

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis NIPS 2023

Cross-modal Active Complementary Learning with Self-refining Correspondence NIPS 2023

Bootstrapping Vision-Language Learning with Decoupled Language Pre-training NIPS 2023

Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment NIPS 2023

Implicit Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis NIPS 2023

Pengi: An Audio Language Model for Audio Tasks NIPS 2023

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation NIPS 2023