Research Explorer

HotelMatch-LLM: Joint Multi-Task Training of Small and Large Language Models for Efficient Multimodal Hotel Retrieval

Arian Askari, Emmanouil Stergiadis, Ilya Gusev et al.

2025 ACL

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

Matthieu Futeral, Armel Randy Zebaze, Pedro Ortiz Suarez et al.

2025 ACL

SignAlignLM: Integrating Multimodal Sign Language Processing into Large Language Models

Mert Inan, Anthony Sicilia, Malihe Alikhani

2025 ACL

MEIT: Multimodal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation

Zhongwei Wan, Che Liu, Xin Wang et al.

2025 ACL

MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

Baixuan Xu, Weiqi Wang, Haochen Shi et al.

2024 EMNLP

MM-ChatAlign: A Novel Multimodal Reasoning Framework based on Large Language Models for Entity Alignment

Xuhui Jiang, Yinghan Shen, Zhichao Shi et al.

2024 EMNLP

Recent Advances in Online Hate Speech Moderation: Multimodality and the Role of Large Models

Ming Shan Hee, Shivam Sharma, Rui Cao et al.

2024 EMNLP

Synergizing Multimodal Temporal Knowledge Graphs and Large Language Models for Social Relation Recognition

Haorui Wang, Zheng Wang, Yuxuan Zhang et al.

2025 EMNLP

Zenseact Open Dataset: A Large-Scale and Diverse Multimodal Dataset for Autonomous Driving

Mina Alibeigi, William Ljungbergh, Adam Tonderski et al.

2023 ICCV

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Peng Xia, Siwei Han, Shi Qiu et al.

2025 ICLR

WangLab at MEDIQA-M3G 2024: Multimodal Medical Answer Generation using Large Language Models

Ronald Xie, Steven Palayew, Augustin Toma et al.

2024 NAACL

Advancing Multimodal Teacher Sentiment Analysis: The Large-Scale T-MED Dataset & the Effective AAM-TSA Model

Zhiyi Duan, Xiangren Wang, Hongyu Yuan et al.

2026 AAAI

Expanding Large Pre-Trained Unimodal Models With Multimodal Information Injection for Image-Text Multimodal Classification

Tao Liang, Guosheng Lin, Mingyang Wan et al.

2022 CVPR

MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation

Haochen Xue, Feilong Tang, Ming Hu et al.

2025 ACL

Multimodal Autoregressive Pre-training of Large Vision Encoders

Enrico Fini, Mustafa Shukor, Xiujun Li et al.

2025 CVPR

YouMakeup: A Large-Scale Domain-Specific Multimodal Dataset for Fine-Grained Semantic Comprehension

Weiying Wang, Yongcheng Wang, Shizhe Chen et al.

2019 EMNLP

UnCo: Uncertainty-Driven Collaborative Framework of Large and Small Models for Grounded Multimodal NER

Jielong Tang, Yang Yang, Jianxing Yu et al.

2025 EMNLP

Looking Beyond Text: Reducing Language Bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance

Haozhe Zhao, Shuzheng Si, Liang Chen et al.

2025 EMNLP

LIFTED: Multimodal Clinical Trial Outcome Prediction via Large Language Models and Mixture-of-Experts

Wenhao Zheng, Liaoyaqi Wang, Dongshen Peng et al.

2025 EMNLP

MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations

Hanlei Zhang, Xin Wang, Hua Xu et al.

2024 ICLR

ZooProbe: A Data Engine for Evaluating, Exploring, and Evolving Large-scale Training Data for Multimodal LLMs

Yi-Kai Zhang, Shiyin Lu, Qing-Guo Chen et al.

2025 ICLR

YouMakeup: A Large-Scale Domain-Specific Multimodal Dataset for Fine-Grained Semantic Comprehension

Weiying Wang, Yongcheng Wang, Shizhe Chen et al.

2019 IJCNLP

Beyond Guardrails: Advanced Safety for Large Language Models — Monolingual, Multilingual and Multimodal Frontiers

Somnath Banerjee, Rima Hazra, Animesh Mukherjee

2025 IJCNLP

NOTA: Multimodal Music Notation Understanding for Visual Large Language Model

Mingni Tang, Jiajia Li, Lu Yang et al.

2025 NAACL

Thesis Proposal: Multimodal Benchmark for Music Understanding in Large Language Models

Tomáš Sourada

2026 EACL

Papers