DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

Jason S Lucas; Matt Murtagh White; Ali Al-Lawati; Uchendu Uchendu; Adaku Uchendu; Dongwon Lee

2026 ACL ACL 2026

DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

Abstract

AbstractHarmful content detectors—particularly disinformation classifiers—are predominantly developed and evaluated on Standard American English (), leaving their robustness to dialectal variation unexplored. We present , the first benchmark for evaluating disinformation detection robustness across 50 English dialects spanning U.S., British, African, Caribbean, and Asia-Pacific varieties. Using Multi-VALUE’s linguistically-grounded transformations, we introduce D-CUBE (Dialectal Disinformation Detection Corpus), a core corpus component of comprising 195K samples derived from established disinformation benchmarks. Our evaluation of 16 detection models reveals systematic vulnerabilities: human-written dialectal content degrades detection by 1.4–3.6% F1, while AI-generated content remains stable. Fine-tuned transformers substantially outperform zero-shot LLMs (96.6% vs. 78.3% best-case F1), with some models exhibiting catastrophic failures exceeding 33% degradation on mixed content. Cross-dialectal transfer analysis across 2,450 dialect pairs shows that multilingual models (mDeBERTa: 97.2% average F1) generalize effectively, while monolingual models like RoBERTa and XLM-RoBERTa fail on dialectal inputs. These findings demonstrate that current disinformation detectors may systematically disadvantage hundreds of millions of non- speakers worldwide. We release the benchmark, including the , and evaluation tools.

Authors

Jason S Lucas , Matt Murtagh White , Ali Al-Lawati , Uchendu Uchendu , Adaku Uchendu , Dongwon Lee

Topics

Natural Language Processing > Applications > Fact-Checking Natural Language Processing > Resources & Methods > Multilingual NLP Artificial Intelligence > Core AI > Fairness

Keywords

harmful content detection dialectal variation disinformation detection cross-dialectal transfer large language model

Download PDF

Related papers

No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand 2026

One-step Nonautoregressive Natural Language Generation with Shortcut Flow Matching Models 2026

Optimizing Retrieval-Augmented Generation for E-Commerce How-To Assistance 2026

Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing 2026

MQM Re-Annotation: A Technique for Collaborative Evaluation of Machine Translation 2026