conftrace_

Josef Dai

8 papers · 2023–2025 · 4 conferences · across top CS/AI conferences

Achievements

Jump to papers ↓

+3 more ↓

🐣 Hot Topic Early Bird 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌍 Conference Polyglot (4) 🐝 Cross-Pollinator (7)

🌈 Renaissance Researcher (5) 🗺️ Taxonomy Completionist (20) ⚡ Prolific Year (5)

Conferences

ACL (4) NIPS (2) AAAI (1) ICLR (1)

Top co-authors

Yaodong Yang (8) Jiaming Ji (8) Jiayi Zhou (5) Xuehai Pan (4) Kaile Wang (3) Ruiyang Sun (3) Boyuan Chen (3) Tianyi Alex Qiu (3) Borong Zhang (2) Yike Guo (2)

Keywords

reinforcement learning from human feedback (4) large language model (3) reward modeling (2) safety alignment (2) human preference (2) language model alignment (2) responsible ai (1) model alignment (1) data compression (1) safe reinforcement learning (1) bayesian network (1) sequence-to-sequence learning (1) safety evaluation (1) safety benchmark (1) preference datum (1) alignment fine-tuning (1) model elasticity (1) pre-training distribution (1) harmful output mitigation (1) safe policy optimization (1)

Papers

SafeLawBench: Towards Safe Alignment of Large Language Models ACL 2025 Reward Generalization in RLHF: A Topological Perspective ACL 2025 Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback AAAI 2025 Language Models Resist Alignment: Evidence From Data Compression ACL 2025 PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference ACL 2025 Safe RLHF: Safe Reinforcement Learning from Human Feedback ICLR 2024 BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset NIPS 2023 Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark NIPS 2023