Artificial Intelligence › Core AI ›

Responsible AI

1991 directly classified papers

Papers per year

Papers

Investigating Value-Reasoning Reliability in Small Large Language Models EMNLP 2025

Instantly Learning Preference Alignment via In-context DPO NAACL 2025

SURE: Safety Understanding and Reasoning Enhancement for Multimodal Large Language Models EMNLP 2025

CTCC: A Robust and Stealthy Fingerprinting Framework for Large Language Models via Cross-Turn Contextual Correlation Backdoor EMNLP 2025

MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models ACL 2025

The Impact of Inference Acceleration on Bias of LLMs NAACL 2025

Data Caricatures: On the Representation of African American Language in Pretraining Corpora ACL 2025

Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting AAAI 2025

HumT DumT: Measuring and controlling human-like language in LLMs ACL 2025

Perception-Guided Jailbreak Against Text-to-Image Models AAAI 2025

How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? NAACL 2025

Computational Thinking with Computer Vision: Developing AI Competency in an Introductory Computer Science Course AAAI 2025

FairI Tales: Evaluation of Fairness in Indian Contexts with a Focus on Bias and Stereotypes ACL 2025

Advancing Research on Equitable AI Education Through a Focus on Implementation: Insights from a Middle School Computer Vision Module Beta-Test AAAI 2025

Human-Centered Disability Bias Detection in Large Language Models IJCNLP 2025

MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning IJCNLP 2025

Exploring Health Misinformation Detection with Multi-Agent Debate IJCNLP 2025

Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering COLING 2025

Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education NAACL 2025

Rubrik’s Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset ACL 2025

Automated Progressive Red Teaming COLING 2025

Style Over Substance: Evaluation Biases for Large Language Models COLING 2025

Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models NAACL 2025

Fair Domain Generalization with Heterogeneous Sensitive Attributes Across Domains WACV 2025

Unveiling Performance Challenges of Large Language Models in Low-Resource Healthcare: A Demographic Fairness Perspective COLING 2025