Research Explorer

Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

Wenkai Yang, Xiaohan Bi, Yankai Lin et al.

2024 NIPS

Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories

Alperen Yildiz, Sin G Teo, Yiling Lou et al.

2025 ACL

TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues

Yubin Ge, Salvatore Romeo, Jason Cai et al.

2025 ACL

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

Yuxi Wei, Zi Wang, Yifan Lu et al.

2024 CVPR

FLAIRR-TS - Forecasting LLM-Agents with Iterative Refinement and Retrieval for Time Series

Gunjan Jalori, Preetika Verma, Sercan O Arik

2025 EMNLP

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification

Boyang Zhang, Yicong Tan, Yun Shen et al.

2025 EMNLP

Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

Minghao Shao, Nanda Rani, Kimberly Milner et al.

2026 AAAI

Can Graph Learning Improve Planning in LLM-based Agents?

Xixi Wu, Yifei Shen, Caihua Shan et al.

2024 NIPS

Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy

Zhenyu Guan, Xiangyu Kong, Fangwei Zhong et al.

2024 NIPS

OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following

Haochen Shi, Zhiyuan Sun, Xingdi Yuan et al.

2024 ACL

AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

Junting Lu, Zhiyang Zhang, Fangkai Yang et al.

2025 ACL

Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents

Tao Wu, Jingyuan Chen, Wang Lin et al.

2025 ACL

Can a Large Language Model Keep My Secrets? A Study on LLM-Controlled Agents

Niklas Hemken, Sai Koneru, Florian Jacob et al.

2025 ACL

A Survey of LLM-based Agents in Medicine: How far are we from Baymax?

Wenxuan Wang, Zizhan Ma, Zheng Wang et al.

2025 ACL

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents

Haoran Tan, Zeyu Zhang, Chen Ma et al.

2025 ACL

A Review of Prominent Paradigms for LLM-Based Agents: Tool Use, Planning (Including RAG), and Feedback Learning

Xinzhe Li

2025 COLING

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

Xiangyuan Xue, Zeyu Lu, Di Huang et al.

2025 CVPR

An Evaluation Mechanism of LLM-based Agents on Manipulating APIs

Bing Liu, Zhou Jianxiang, Dan Meng et al.

2024 EMNLP

TrustAgent: Towards Safe and Trustworthy LLM-based Agents

Wenyue Hua, Xianjun Yang, Mingyu Jin et al.

2024 EMNLP

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents

Ruixuan Xiao, Wentao Ma, Ke Wang et al.

2024 EMNLP

Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks

Yun-Shiuan Chuang, Krirk Nirunwiroj, Zach Studdiford et al.

2024 EMNLP

SPARK: Simulating the Co-evolution of Stance and Topic Dynamics in Online Discourse with LLM-based Agents

Bowen Zhang, Yi Yang, Fuqiang Niu et al.

2025 EMNLP

TelAgentBench: A Multi-faceted Benchmark for Evaluating LLM-based Agents in Telecommunications

Sunwoo Lee, Daseong Jang, Dhammiko Arya et al.

2025 EMNLP

Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents

Tianmi Ma, Jiawei Du, Wenxin Huang et al.

2025 EMNLP

HEAL: Hybrid Enhancement with LLM-based Agents for Text-attributed Hypergraph Self-supervised Representation Learning

Ruochang Li, Xiao Luo, Zhiping Xiao et al.

2025 EMNLP

Papers