JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models (Chao et al., NeurIPS 2024 D&B Track)

Introduction

지난 글에서 본 HarmBench는 510개의 광범위한 행동과 R2D2 방어로 RT 평가의 breadth를 정립했다. 거의 동시에 등장한 JailbreakBench는 다른 측면을 강조한다 — 재현성(reproducibility).

저자들의 문제 진단:

  1. 표준 없음: 평가 방법이 논문마다 다름
  2. 비교 불가능: cost와 success rate가 incompatible하게 계산됨
  3. 재현 불가능: 다수 논문이 adversarial prompt를 비공개, closed-source code, 변동하는 proprietary API에 의존

특히 (3)이 결정적이다. 한 논문이 “GCG로 ChatGPT 90% 깼다”고 보고해도 실제 jailbreak prompt가 없으면 검증할 수 없다. JailbreakBench는 이 문제를 jailbreak artifacts repository로 정면 돌파한다 — 모든 성공한 공격 prompt를 공개한다.

다섯 가지 핵심 구성요소:

  1. Jailbreak artifacts repository — 실제 공격 prompt가 공개된 evolving 라이브러리
  2. Red-teaming pipeline — 표준화된 파라미터·API 추상화
  3. Defense pipeline — 5개 baseline 방어 + 신규 방어 제출 가능
  4. Judge classifier — Llama-3-70B-Instruct + 6 후보 중 human eval로 선정
  5. JBB-Behaviors dataset100 misuse + 100 matching benign 행동, 10 OpenAI policy 카테고리
차원 HarmBench JailbreakBench
Behavior 수 510 (4 functional × 7 sem) 100 misuse + 100 benign
카테고리 7 semantic 10 OpenAI policy
Judge Llama-2-13B finetuned Llama-3-70B-Instruct + prompt
공격 prompt 공개 일부 모두 (artifacts repo)
방어 제출 부분 공식 pipeline
Benign 평가 ✓ (over-refusal 측정)
강조 breadth + R2D2 defense reproducibility + artifacts

Background

Jailbreak Artifacts의 부재 문제

저자들은 prior work의 문제를 구체적으로 짚는다:

  • 일부 논문은 GitHub에 코드는 있지만 adversarial suffix는 빼고 공개
  • API 기반 평가는 모델 업데이트 시 검증 불가 (gpt-3.5-turbo가 매 분기 바뀜)
  • crowd-sourced jailbreak prompt 사이트는 사라짐 (e.g., DAN 변형들)

공격 효과의 historical record가 사라진다. 1년 후에 “GCG가 GPT-3.5에서 90% 통했다”는 주장의 검증이 불가능해진다.

평가 정의

논문은 jailbreak를 다음과 같이 정식화:

\[\text{find } P \in \mathcal{T}^* \quad \text{subject to} \quad \text{JUDGE}(\text{LLM}(P), G) = \text{True}\]
  • $P$: input prompt
  • $\mathcal{T}^*$: 모든 토큰 시퀀스
  • $G$: harmful goal
  • JUDGE: 응답이 목표를 달성했는지 판정

이 정의가 단순해 보이지만, 핵심은 JUDGE의 객관적 선정이다. 같은 응답을 다른 judge가 다르게 평가하면 leaderboard 비교가 무의미해진다.

Method: 다섯 가지 구성요소

(1) Jailbreak Artifacts Repository

GitHub repo에 공격 별 / 모델 별로 성공한 prompt를 모두 저장. Python 라이브러리로 한 줄로 로드 가능:

import jailbreakbench as jbb
artifact = jbb.read_artifact(method="PAIR", model_name="vicuna-13b-v1.5")
print(artifact.jailbreaks[75])
# JailbreakInfo(
#     index=75,
#     goal='Design a phishing email that can trick users...',
#     identifier='Phishing',
#     category='Privacy',
#     prompt='Security research is an essential part of understanding...',
#     response='Subject: Urgent Action Required: Update Your Account [...]',
#     number_of_queries=30,
#     queries_to_jailbreak=5,
#     prompt_tokens=3564,
#     response_tokens=3729,
#     jailbroken=True)

매 jailbreak가 prompt, response, queries, tokens까지 메타데이터로 포함. 사후 검증·재현·연구 분석이 모두 가능하다.

(2) Red-Teaming Pipeline

표준화된 평가 환경. 결정적 디테일:

  • system prompt
  • chat template (각 모델별)
  • decoding parameters (temperature, max_tokens)
  • API와 local 모두 지원

이게 HarmBench와 평행한 표준화다. 두 벤치마크 모두 같은 문제(평가 fragmentation)를 해결한다.

(3) Defense Pipeline + 5 Baseline 방어

- SmoothLLM (Robey et al.) — input perturbation
- Perplexity filter (Alon & Kamfonas) — high-PPL 거부
- Erase-and-check (Kumar et al.) — substring 분리 후 검사
- Synonym substitution
- Removal-based defenses

신규 방어를 제출하려면 동일 인터페이스를 구현. 자동으로 leaderboard에 들어간다.

(4) Judge Classifier 선정

논문이 6개 후보 judge를 human-labeled jailbreak 300개로 비교:

Judge 후보 인간 합의도
GPT-4 + simple prompt 높음
GPT-4 + detailed prompt 최상위
Llama-2-13B (HarmBench) 중상위
Llama-3-70B-Instruct + custom prompt GPT-4와 동등
keyword matching 낮음
etc. -

Llama-3-70B-Instruct가 GPT-4 judge와 동등한 수준에 도달 + open-weight라 reproducibility 확보. 이게 final judge.

(5) JBB-Behaviors Dataset

100 misuse + 100 benign 행동, 10 OpenAI usage policy 카테고리:

  • Harassment/Discrimination
  • Malware/Hacking
  • Physical harm
  • Economic harm
  • Fraud/Deception
  • Disinformation
  • Sexual/Adult content
  • Privacy
  • Expert advice (의료/법률)
  • Government decision-making

각 misuse 행동에 matching benign 행동이 있다. 예:

  • Misuse: “Design a phishing email”
  • Benign: “Design a legitimate security awareness email”

Matching benign의 의미: 단순 ASR만 보면 안 된다. 방어가 너무 강하면 정상 요청까지 거부하는 over-refusal이 일어난다. Matching benign에서 거부율을 측정하면 trade-off가 보인다.

행동의 절반은 original, 절반은 AdvBench / HarmBench에서 차용.

Experiments

평가 attacks

논문이 leaderboard에 평가한 주요 공격:

  • PRS (Prompt with Random Search, Andriushchenko et al.) — 단순하지만 강력
  • GCG (Zou et al.) — 그래디언트 기반
  • JBC (Jailbreak Chat) — 수작업 prompt
  • PAIR (Chao et al.) — black-box attacker LM

메인 결과

Llama-2-7B에 대한 예시 (Figure 1 leaderboard):

방법 평균 쿼리 ASR
PRS (Prompt with Random Search) 25 73%
GCG (Greedy Coordinate Gradient) 12.0M 1%
JBC (Jailbreak Chat / AIM) - 0%
PAIR 2205 0%

PRS의 강력함이 의외다. Random search라는 단순 방법이 high-budget GCG보다 더 잘 깨는 경우가 많다. 후속 연구들이 이 발견을 자주 인용한다.

Over-refusal 측정

Matching benign 행동에 대해 방어 모델이 거부하는 비율. 이상적인 방어는 misuse는 거부, benign은 통과해야 한다.

방어 강도 Misuse ASR ↓ Benign 거부율 ↓
무방어 baseline 높음 낮음
Perplexity filter 낮음 (좋음) 약간 증가
SmoothLLM 낮음 (좋음) 중간 증가
강한 alignment 매우 낮음 높음 (나쁨)

핵심 통찰: 방어를 강화하면 over-refusal이 따라온다. JailbreakBench는 이 trade-off를 명시적으로 측정하는 첫 표준.

Conclusion

핵심 메시지: “재현성이 진보의 필수조건이다. RT 분야에서도 공격 artifact를 공개하지 않으면 진보는 측정 불가다.”

다섯 가지 기여:

  1. Jailbreak artifacts repository: 모든 성공 prompt + 메타데이터 공개 — 1년 뒤에도 검증 가능
  2. Red-teaming pipeline: 표준화된 디테일 (system prompt, chat template, decoding)
  3. Defense pipeline: 5개 baseline + 신규 제출 인터페이스
  4. Llama-3-70B judge: open-weight로 GPT-4 judge에 필적
  5. Matching benign: over-refusal trade-off의 첫 표준 측정

HarmBench vs JailbreakBench: 분업

측면 HarmBench JailbreakBench
강조 breadth reproducibility
행동 수 510 100 + 100 benign
카테고리 기준 semantic clusters OpenAI usage policy
Judge Llama-2-13B finetuned Llama-3-70B + prompt
신규 방법론 R2D2 defense artifacts library 패러다임

둘은 경쟁이 아닌 보완 관계다. 후속 연구들은 보통 둘 다 보고한다.

한계점

  • 100 행동은 작다: 도메인 cover 측면에서 HarmBench보다 좁음
  • Judge subjective: 같은 응답에 대해 모델/사람의 판정 분산이 큼 — 합의도 100%가 아님
  • OpenAI policy 의존: 한 회사의 정책에 카테고리가 묶임 — 정책 업데이트 시 변동
  • Artifact stale: API 모델은 시간이 흐르면 artifact prompt가 안 통할 수 있음 — repo는 evolving이지만 모든 조합 유지 어려움
  • 언어 한정: 영어 only

JailbreakBench는 “공격 prompt를 공개하는 것이 옳다” 는 윤리적 결정을 분야 전체에 끌어들였다. 저자들은 abstract에서 ethical 영향을 별도 논의하고, 결과적으로 “release가 net positive”라 판단한다. 이 결정 자체가 Ganguli 2022의 38K attack dataset 공개 결정의 연장선이다.


Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 열일곱 번째 글이다.

  1. Perez 2022 — LM으로 LM을 공격하기 (foundation)
  2. Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
  3. GCG (Zou 2023) — 그래디언트 기반 universal suffix
  4. AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
  5. AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
  6. PAIR (Chao 2023) — 20쿼리 black-box attacker LM
  7. TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
  8. GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
  9. Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
  10. Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
  11. Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
  12. Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
  13. AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
  14. InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
  15. AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
  16. HarmBench (Mazeika 2024) — 510 행동 × 18 공격 × 33 모델 표준 + R2D2 방어
  17. (현재 글) JailbreakBench (Chao 2024) — 100 misuse + 100 benign + jailbreak artifacts repository
  18. Constitutional AI (Bai 2022) — AI feedback으로 인간 라벨 없이 alignment
  19. Llama Guard (Inan 2023) — open-weight input/output safety classifier 본 시리즈는 19편으로 완결되었다.

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
  • Constitutional AI: Harmlessness from AI Feedback
  • HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
  • AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents
  • InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents