Artificial Intelligence › Core AI ›

Large Language Models

6405 directly classified papers

Papers per year

Papers

ReCoT: Reflective Self-Correction Training for Mitigating Confirmation Bias in Large Vision-Language Models ICCV 2025

From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning ICCV 2025

Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles ICCV 2025

Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers ICCV 2025

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation ICCV 2025

LIRA: Reasoning Reconstruction via Multimodal Large Language Models ICCV 2025

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models ICCV 2025

Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs ICCV 2025

AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts ICCV 2025

Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency ICCV 2025

Boosting MLLM Reasoning with Text-Debiased Hint-GRPO ICCV 2025

Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests ICCV 2025

GenieBlue: Integrating both Linguistic and Multimodal Capabilities for Large Language Models on Mobile Devices ICCV 2025

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks ICCV 2025

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI ICCV 2025

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension ICCV 2025

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations ICCV 2025

StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition ICCV 2025

Federated Continual Instruction Tuning ICCV 2025

CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving ICCV 2025

VideoSetDiff: Identifying and Reasoning Similarities and Differences in Similar Videos ICCV 2025

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models ICCV 2025

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models ICCV 2025

AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving ICCV 2025

Rationale Behind Essay Scores: Enhancing S-LLM’s Multi-Trait Essay Scoring with Rationale Generated by LLMs NAACL 2025