Artificial Intelligence › Core AI ›

Interpretability

7318 directly classified papers

Papers per year

Papers

Query-Routed Activation Editing with Truth-hierarchical Preference Optimization AAAI 2026

Focusing on Language: Revealing and Exploiting Language Attention Heads in Multilingual Large Language Models AAAI 2026

OX-MABSR: A Benchmark for Open-domain Explainable Multimodal Aspect-Based Sentiment Reasoning AAAI 2026

Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation AAAI 2026

SOM Directions Are Better than One: Multi-Directional Refusal Suppression in Language Models AAAI 2026

Positional Cognitive Specialization: Where Do LLMs Learn to Comprehend and Speak Your Language? AAAI 2026

Bonsai: Interpretable Tree-Adaptive Grounded Reasoning AAAI 2026

Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models AAAI 2026

RECoRD: A Multi-Agent LLM Framework for Reverse Engineering Codebase to Relational Diagram AAAI 2026

Graph of Verification: Structured Verification of LLM Reasoning with Directed Acyclic Graphs AAAI 2026

PASS: Probabilistic Agentic Supernet Sampling for Interpretable and Adaptive Chest X-Ray Reasoning AAAI 2026

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders AAAI 2026

DeCoRL: Decoupling Reasoning Chains via Parallel Sub-Step Generation and Cascaded Reinforcement for Interpretable and Scalable RLHF AAAI 2026

Expert-Guided Prompting and Retrieval-Augmented Generation for Emergency Medical Service Question Answering AAAI 2026

SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement AAAI 2026

Control Illusion: The Failure of Instruction Hierarchies in Large Language Models AAAI 2026

FaithLM: Towards Faithful Explanations for Large Language Models EACL 2026

Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks AAAI 2026

A Reasoning Paradigm for Named Entity Recognition AAAI 2026

SCoUT: A Framework for Structured Stereotype Analysis in Language Models AAAI 2026

CastX: Cohort-Level Causal Inference Meets Statistical Testing for Faithful and Reliable GNN Explanations AAAI 2026

Activating Visual Context and Commonsense Reasoning Through Masked Prediction in VLMs AAAI 2026

VeriFlow: Modeling Distributions for Neural Network Verification AAAI 2026

Topology-aware Knowledge Preservation for Class-Incremental Learning AAAI 2026

MLLM Enriched Explainable Multiple Clustering AAAI 2026