Ian Steneker YOU? Author Swipe

Last 10y

LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet Open

Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside , et al. · 2024

Recent large language model (LLM) defenses have greatly improved models' ability to refuse harmful queries, even when adversarially attacked. However, LLM defenses are primarily evaluated against automated adversarial attacks in a single t…