Research Explorer

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

Bin Wang, Chunyu Xie, Dawei Leng et al.

2025 AAAI

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

Dianbo Sui, Zhengkun Tian, Yubo Chen et al.

2021 ACL

Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

Weihong Zhong, Xiaocheng Feng, Liang Zhao et al.

2024 ACL

Zhoumou at SemEval-2025 Task 1: Leveraging Multimodal Data Augmentation and Large Language Models for Enhanced Idiom Understanding

Yingzhou Zhao, Bowen Guan, Liang Yang et al.

2025 ACL

JNLP at SemEval-2025 Task 1: Multimodal Idiomaticity Representation with Large Language Models

Blake Matheny, Phuong Minh Nguyen, Minh Le Nguyen

2025 ACL

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

Fengxiang Wang, Hongzhen Wang, Zonghao Guo et al.

2025 CVPR

Large Language Models and Multimodal Retrieval for Visual Word Sense Disambiguation

Anastasia Kritharoula, Maria Lymperaiou, Giorgos Stamou

2023 EMNLP

Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning Distilled from Large Language Models

Hongzhan Lin, Ziyang Luo, Jing Ma et al.

2023 EMNLP

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

Tianhong Gao, Yannian Fu, Weiqun Wu et al.

2025 ICCV

Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning

Zeyu Xi, Haoying Sun, Yaofei Wu et al.

2025 ICCV

TerraMind: Large-Scale Generative Multimodality for Earth Observation

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel et al.

2025 ICCV

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Zehan Wang, Ziang Zhang, Minjie Hong et al.

2025 ICLR

Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models

Zhenyu Pan, Haozheng Luo, Manling Li et al.

2025 ICLR

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

Dianbo Sui, Zhengkun Tian, Yubo Chen et al.

2021 IJCNLP

MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning

Fuxiao Liu, Xiaoyang Wang, Wenlin Yao et al.

2024 NAACL

Detect, Disambiguate, and Translate: On-Demand Visual Reasoning for Multimodal Machine Translation with Large Vision-Language Models

Danyang Liu, Fanjie Kong, Xiaohang Sun et al.

2025 NAACL

Zhoumou at SemEval-2025 Task 1: Leveraging Multimodal Data Augmentation and Large Language Models for Enhanced Idiom Understanding

Yingzhou Zhao, Bowen Guan, Liang Yang et al.

2025 SEMEVAL

JNLP at SemEval-2025 Task 1: Multimodal Idiomaticity Representation with Large Language Models

Blake Matheny, Phuong Minh Nguyen, Minh Le Nguyen

2025 SEMEVAL

MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity Detection

Kellie Corona, Katie Osterdahl, Roderic Collins et al.

2021 WACV

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Yu Wu, Ke Shu, Jonas Fischer et al.

2026 EACL

TraveLLaMA: A Multimodal Travel Assistant with Large-Scale Dataset and Structured Reasoning

Meng Chu, Yukang Chen, Haokun Gui et al.

2026 AAAI

From Dialogue to Destination: Geography-Aware Large Language Models with Multimodal Fusion for Conversational Recommendation

Yeming Li, Chenxi Liu, Jie Zou et al.

2026 AAAI

FAM: Fine-Grained Alignment Matters in Multimodal Embedding Learning with Large Vision-Language Models

Tianhang Xiang, Yirui Li, Lizhao Liu et al.

2026 AAAI

Multimodal and Multilingual Embeddings for Large-Scale Speech Mining

Paul-Ambroise Duquenne, Hongyu Gong, Holger Schwenk

2021 NIPS

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models

Wenxuan Zhang, Mahani Aljunied, Chang Gao et al.

2023 NIPS

Papers