conftrace_

Papers

17,973 papers found · 2,658 more still awaiting a processed abstract Show those too

VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models

Bingrui Sima, Linhua Cong, Wenxuan Wang et al.

2025 EMNLP

VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms

Seungwon Lim, Sungwoong Kim, Jihwan Yu et al.

2025 EMNLP

VisFinEval: A Scenario-Driven Chinese Multimodal Benchmark for Holistic Financial Understanding

Zhaowei Liu, Xin Guo, Haotian Xia et al.

2025 EMNLP

Vision-and-Language Navigation with Analogical Textual Descriptions in LLMs

Yue Zhang, Tianyi Ma, Zun Wang et al.

2025 EMNLP

Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions

Ioanna Ntinou, Alexandros Xenos, Yassine Ouali et al.

2025 EMNLP

VisiPruner: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs

Yingqi Fan, Anhao Zhao, Jinlan Fu et al.

2025 EMNLP

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Honghao Fu, Junlong Ren, Qi Chai et al.

2025 EMNLP

Visual-Aware Speech Recognition for Noisy Scenarios

Balaji Darur, Karan Singla

2025 EMNLP

Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection

Miao Ziqi, Yi Ding, Lijun Li et al.

2025 EMNLP

VisualEDU: A Benchmark for Assessing Coding and Visual Comprehension through Educational Problem-Solving Video Generation

Hao Chen, Tianyu Shi, Pengran Huang et al.

2025 EMNLP

Visual Program Distillation with Template-Based Augmentation

Michal Shlapentokh-Rothman, Yu-Xiong Wang, Derek Hoiem

2025 EMNLP

Visual Self-Refinement for Autoregressive Models

Jiamian Wang, Ziqi Zhou, Chaithanya Kumar Mummadi et al.

2025 EMNLP

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Yiming Jia, Jiachen Li, Xiang Yue et al.

2025 EMNLP

VIVA+: Human-Centered Situational Decision-Making

Zhe Hu, Yixiao Ren, Guanzhong Liu et al.

2025 EMNLP

VLA-Mark: A cross modal watermark for large vision-language alignment models

Shuliang Liu, Zheng Qi, Jesse Jiaxi Xu et al.

2025 EMNLP

VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making

Zuojin Tang, Bin Hu, Chenyang Zhao et al.

2025 EMNLP

VLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

Zhanpeng Chen, Chengjin Xu, Yiyan Qi et al.

2025 EMNLP

VLP: Vision-Language Preference Learning for Embodied Manipulation

Runze Liu, Chenjia Bai, Jiafei Lyu et al.

2025 EMNLP

VocalNet: Speech LLMs with Multi-Token Prediction for Faster and High-Quality Generation

Yuhao Wang, Heyang Liu, Ziyang Cheng et al.

2025 EMNLP

VoiceBBQ: Investigating Effect of Content and Acoustics in Social Bias of Spoken Language Model

Junhyuk Choi, Ro-hoon Oh, Jihwan Seol et al.

2025 EMNLP

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing

Zhisheng Zheng, Puyuan Peng, Anuj Diwan et al.

2025 EMNLP

Voice of a Continent: Mapping Africa’s Speech Technology Frontier

AbdelRahim A. Elmadany, Sang Yun Kwon, Hawau Olamide Toyin et al.

2025 EMNLP

VQA-Augmented Machine Translation with Cross-Modal Contrastive Learning

Zhihui Zhang, Shiliang Sun, Jing Zhao et al.

2025 EMNLP

VRoPE: Rotary Position Embedding for Video Large Language Models

Zikang Liu, Longteng Guo, Yepeng Tang et al.

2025 EMNLP

V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models

Qidong Wang, Junjie Hu, Ming Jiang

2025 EMNLP