conftrace_

Artificial Intelligence › Core AI ›

Interpretability

7,318 papers

Papers per year

Papers

Internal states before wait modulate reasoning patterns EMNLP 2025

Evaluating Evaluation Metrics – The Mirage of Hallucination Detection EMNLP 2025

The Progress Illusion: Revisiting meta-evaluation standards of LLM evaluators EMNLP 2025

Defending against Indirect Prompt Injection by Instruction Detection EMNLP 2025

On the Versatility of Sparse Autoencoders for In-Context Learning EMNLP 2025

Simulating Identity, Propagating Bias: Abstraction and Stereotypes in LLM-Generated Text EMNLP 2025

Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs EMNLP 2025

Assessing LLM Reasoning Steps via Principal Knowledge Grounding EMNLP 2025

Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests EMNLP 2025

Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation EMNLP 2025

Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them EMNLP 2025

When Models Reason in Your Language: Controlling Thinking Language Comes at the Cost of Accuracy EMNLP 2025

The Role of Model Confidence on Bias Effects in Measured Uncertainties for Vision-Language Models EMNLP 2025

Context Copying Modulation: The Role of Entropy Neurons in Managing Parametric and Contextual Knowledge Conflicts EMNLP 2025

Characterizing Positional Bias in Large Language Models: A Multi-Model Evaluation of Prompt Order Effects EMNLP 2025

Large Language Models with Temporal Reasoning for Longitudinal Clinical Summarization and Prediction EMNLP 2025

Pruning Weights but Not Truth: Safeguarding Truthfulness While Pruning LLMs EMNLP 2025

Evaluating Large Language Models for Belief Inference: Mapping Belief Networks at Scale EMNLP 2025

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues EMNLP 2025

Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics EMNLP 2025

How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation EMNLP 2025

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? EMNLP 2025

TABARD: A Novel Benchmark for Tabular Anomaly Analysis, Reasoning and Detection EMNLP 2025

Temporal Consistency for LLM Reasoning Process Error Identification EMNLP 2025

I-GUARD: Interpretability-Guided Parameter Optimization for Adversarial Defense EMNLP 2025