Research Explorer

IREL at SemEval-2023 Task 11: User Conditioned Modelling for Toxicity Detection in Subjective Tasks

Ankita Maity, Pavan Kandru, Bhavyajeet Singh et al.

2023 SEMEVAL

Toxicity Detection for Free

Zhanhao Hu, Julien Piet, Geng Zhao et al.

2024 NIPS

Soft-Label Integration for Robust Toxicity Classification

Zelei Cheng, Xian Wu, Jiahao Yu et al.

2024 NIPS

WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans

Tharindu Ranasinghe, Diptanu Sarkar, Marcos Zampieri et al.

2021 ACL

Detoxifying Online Discourse: A Guided Response Generation Approach for Reducing Toxicity in User-Generated Text

Ritwik Bose, Ian Perera, Bonnie Dorr

2023 ACL

Tox-BART: Leveraging Toxicity Attributes for Explanation Generation of Implicit Hate Speech

Neemesh Yadav, Sarah Masud, Vikram Goyal et al.

2024 ACL

GTA: Gated Toxicity Avoidance for LM Performance Preservation

Heegyu Kim, Hyunsouk Cho

2023 EMNLP

WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans

Tharindu Ranasinghe, Diptanu Sarkar, Marcos Zampieri et al.

2021 IJCNLP

Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents

San Kim, Gary Lee

2024 NAACL

GameTox: A Comprehensive Dataset and Analysis for Enhanced Toxicity Detection in Online Gaming Communities

Usman Naseem, Shuvam Shiwakoti, Siddhant Bikram Shah et al.

2025 NAACL

WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans

Tharindu Ranasinghe, Diptanu Sarkar, Marcos Zampieri et al.

2021 SEMEVAL

A Hybrid Confidence-Aware Framework for Arabic Toxicity Detection in Social Media

Fawzia Zaal Alanazi, Asma Mohammed Alamri, Arwa Bin Saleh et al.

2026 EACL

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Lijun Li, Zhelun Shi, Xuhao Hu et al.

2025 CVPR

Prompt Compression and Contrastive Conditioning for Controllability and Toxicity Reduction in Language Models

David Wingate, Mohammad Shoeybi, Taylor Sorensen

2022 EMNLP

DAPI: Domain Adaptive Toxicity Probe Vector Intervention, for Fine-Grained Detoxification

Cho Hyeonsu, Dooyoung Kim, Youngjoong Ko

2025 ACL

A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information

Lucky Susanto, Musa Izzanardi Wijanarko, Prasetia Anugrah Pratama et al.

2025 ACL

FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts

Caroline Brun, Vassilina Nikoulina

2024 COLING

A Review of Standard Text Classification Practices for Multi-label Toxicity Identification of Online Content

Isuru Gunasekara, Isar Nejadgholi

2018 EMNLP

ToxiCraft: A Novel Framework for Synthetic Generation of Harmful Information

Zheng Hui, Zhaoxiao Guo, Hang Zhao et al.

2024 EMNLP

Translate, Then Detect: Leveraging Machine Translation for Cross-Lingual Toxicity Classification

Samuel Bell, Eduardo Sánchez, David Dale et al.

2025 EMNLP

Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis

João Augusto Leite, Diego Silva, Kalina Bontcheva et al.

2020 AACL

Quantifying the Ethical Dilemma of Using Culturally Toxic Training Data in AI Tools for Indigenous Languages

Pedro Henrique Domingues, Claudio Santos Pinhanez, Paulo Cavalin et al.

2024 COLING

Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks

Avi Schwarzschild, Micah Goldblum, Arjun Gupta et al.

2021 ICML

ToxiPrompt: A Two-Stage Red-Teaming Approach for Balancing Adversarial Prompt Diversity and Response Toxicity

Seungho Lee, Kyumin Lee

2026 EACL

Data Integration for Toxic Comment Classification: Making More Than 40 Datasets Easily Accessible in One Unified Format

Julian Risch, Philipp Schmidt, Ralf Krestel

2021 ACL

Papers