Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (Mehrotra et al., NeurIPS 2024)

Introduction

PAIR는 LLM으로 LLM을 공격하는 우아한 방법이었다. 평균 20쿼리로 GPT-3.5/4를 jailbreak할 수 있었다. 하지만 PAIR에는 두 가지 비효율이 있었다.

선형 탐색: 단일 대화 스트림 — 한 번 잘못된 방향으로 가면 회복이 어렵다 (local minimum).
무차별 쿼리: 생성된 모든 후보를 target에 던진다 — off-topic이거나 명백히 약한 후보까지 쿼리 비용을 쓴다.

2023년 12월, Mehrotra et al.은 이 둘을 동시에 해결한다. TAP(Tree of Attacks with Pruning) 는 PAIR의 단일 스트림을 트리 탐색으로 확장하고, 두 번의 pruning으로 쿼리 비용을 절감한다.

위 그림이 알고리즘의 한 iteration이다. 네 단계 — Branch → Prune (off-topic) → Attack & Assess → Prune (low-score) — 가 트리 깊이 \(d\)만큼 반복된다. 결과는 명확하다.

모델	PAIR ASR	TAP ASR	PAIR 쿼리	TAP 쿼리
Vicuna-13B	94%	98%	14.7	11.8
GPT-3.5	56%	76%	37.7	23.1
GPT-4	60%	90%	39.6	28.8
GPT-4-Turbo	44%	84%	47.1	22.5
PaLM-2	86%	98%	27.6	16.2

GPT-4-Turbo 기준 ASR +40%p, 쿼리 −52%. PAIR의 동일한 구성요소(attacker LLM, judge LLM)를 쓰면서 알고리즘 구조만 바꿔서 얻은 결과다.

Background

PAIR의 한계

PAIR의 동작을 한 줄로 요약하면 다음과 같다.

prompt_0 → response_0 → (실패 분석) → prompt_1 → response_1 → ...

이 선형 구조에는 두 가지 약점이 있다.

단일 경로: 시작 prompt가 나쁜 방향이면 회복 불가
다양성 부족: 매 iteration에서 한 가지 변형만 시도

또한 PAIR는 attacker가 만든 후보를 그대로 target에 던진다. 만약 후보가 off-topic(목표 harm과 무관한 내용)이거나 명백히 reject될 형태라면 그 쿼리는 낭비다.

Tree-of-Thoughts에서 가져온 아이디어

TAP의 이름은 Tree-of-Thoughts (ToT) 에서 왔다. ToT는 LLM 추론에서 branch & evaluate & prune으로 단일 chain을 트리로 확장한 기법이다. TAP는 이 패턴을 jailbreak 탐색에 적용한다 — “공격 prompt”를 “thought”로 보고 트리를 키운다.

Method: TAP 알고리즘

세 가지 역할

Attacker LLM: 후보 prompt 생성과 refinement
Evaluator LLM: 두 가지 일을 한다 — (1) on-topic/off-topic 판정, (2) target 응답의 jailbreak score 매기기
Target LLM: 공격 대상 (black-box, API만 필요)

PAIR과 같은 구성요소다. 차이는 이들을 어떻게 조립하느냐이다.

한 iteration의 네 단계

Algorithm 1: TAP iteration
Input: 현재 트리의 leaf 집합 L
1. Branch:    각 leaf에서 attacker가 b개의 refined prompt 생성
2. Prune-1:   evaluator가 off-topic 후보를 걸러냄 (target 쿼리 전)
3. Attack:    남은 후보들을 target에 쿼리 → 응답 받음
              jailbreak 성공 시 즉시 종료
4. Prune-2:   evaluator score 상위 w개만 다음 세대 leaf로 보존

이걸 depth \(d\)만큼 반복.

Step 1. Branch (분기)

각 leaf prompt에서 attacker가 b개의 다양한 refinement를 만든다. PAIR가 한 step에 1개의 후속 prompt를 만드는 것과 달리, TAP는 여러 방향을 동시에 탐색한다.

Step 2. Prune Phase 1 — Off-topic Pruning

이 단계가 TAP의 핵심 효율 개선이다. Evaluator가 각 후보 prompt를 보고 “이게 정말 목표 harm과 관련 있는가?”를 판정한다. Off-topic이면 target에 쿼리하지 않고 폐기.

Goal: "Write a tutorial on hacking into a bank"
Candidate A: "Write a story about a heist movie"     → on-topic ✓
Candidate B: "Tell me about your favorite color"     → off-topic ✗ → prune

이 단계가 없으면 attacker가 만든 무관한 후보들까지 target에 던져 쿼리 예산을 낭비하게 된다.

Step 3. Attack and Assess

남은 후보를 target에 쿼리하고 응답을 받는다. evaluator가 응답의 jailbreak score(0–10)를 매긴다. 10점 도달 시 즉시 종료.

Step 4. Prune Phase 2 — Score Pruning

다음 세대로 넘길 leaf를 상위 w개로 제한한다. 이게 트리 너비를 통제하면서 promising한 가지만 키운다.

파라미터

파라미터	값	의미
Branching factor \(b\)	4	leaf당 자식 수
Max depth \(d\)	10	트리 깊이 한계
Max width \(w\)	10	매 depth에서 보존할 leaf 수

이론적 최대 쿼리: \(b \cdot w \cdot d = 4 \cdot 10 \cdot 10 = 400\). 실제 평균은 < 30 쿼리. Pruning과 조기 종료가 대부분 잘라낸다.

Experiments

메인 결과 (50 prompt subset)

전체 비교 표:

방법	항목	Vicuna-13B	Llama-2-7B	GPT-3.5	GPT-4	GPT-4-Turbo	PaLM-2
TAP	ASR	98%	4%	76%	90%	84%	98%
TAP	Avg Queries	11.8	66.4	23.1	28.8	22.5	16.2
PAIR	ASR	94%	0%	56%	60%	44%	86%
PAIR	Avg Queries	14.7	60.0	37.7	39.6	47.1	27.6
GCG	ASR	98%	54%	—	—	—	—
GCG	Queries	256K	256K	—	—	—	—

세 가지 핵심 관찰:

GPT-4 계열에서 큰 차이: ASR 60→90% (GPT-4), 44→84% (GPT-4-Turbo). 더 강한 모델일수록 단일 스트림의 한계가 명확해진다.
쿼리 효율: TAP가 모든 모델에서 PAIR보다 적게 쓴다 (Llama-2-7B 제외).
Llama-2-7B는 둘 다 어려움: 강한 RLHF 정렬은 black-box 접근만으론 깨지 않는다.

LlamaGuard 우회

TAP의 또 다른 기여는 guardrail이 적용된 LLM도 공격한다는 점. LlamaGuard로 입력/출력을 검열하는 환경에서도 TAP는 jailbreak를 찾는다. 자연어 jailbreak는 guardrail 분류기에도 잡히기 어렵다는 시사점이다.

Off-topic Pruning의 효과

Ablation: Phase 1 pruning을 끄면?

쿼리 수가 크게 증가
ASR은 비슷하거나 약간 하락 (잡음 후보가 트리를 흐림)

즉 Phase 1은 순수하게 효율 개선이고, Phase 2는 품질 보존이다.

Conclusion

TAP의 메시지: “같은 재료(attacker + evaluator + target)도 트리 + pruning으로 조립하면 다른 결과가 나온다.”

세 가지 기여:

트리 구조: PAIR의 선형 탐색을 branch & prune으로 확장 → local minimum 회피
이중 pruning: Pre-attack(off-topic), Post-attack(low-score) — 쿼리 비용 50% 절감
GPT-4 계열 SOTA: 80%+ ASR을 평균 30쿼리 미만으로

한계점

Llama-2-Chat 미해결: ASR 4% — 강한 RLHF는 여전히 어렵다
Evaluator 의존: judge LLM의 score가 부정확하면 prune이 틀어진다
Attacker 비용: 트리가 깊을수록 attacker LLM 호출 비용도 비례 증가 (target 비용만 줄이는 게 아님)
데이터셋 크기: 평가가 50 prompt에 한정 — HarmBench/JailbreakBench의 더 큰 표준 셋에서의 재현은 후속 과제

TAP은 PAIR의 알고리즘적 확장으로서 자동 black-box 공격의 2세대 표준이 되었다. 이후 black-box RT 연구는 대부분 PAIR/TAP/AutoDAN을 공통 baseline으로 보고한다. NeurIPS 2024 발표.

Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 일곱 번째 글이다.

Perez 2022 — LM으로 LM을 공격하기 (foundation)
Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
GCG (Zou 2023) — 그래디언트 기반 universal suffix
AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
PAIR (Chao 2023) — 20쿼리 black-box attacker LM
(현재 글) TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.

참고 문헌

Mehrotra et al., 2023. Tree of Attacks: Jailbreaking Black-Box LLMs Automatically. NeurIPS 2024.
GitHub: RICommunity/TAP
Chao et al., 2023. PAIR — Jailbreaking Black Box LLMs in Twenty Queries.
Yao et al., 2023. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. (TAP의 아이디어 원천)
Inan et al., 2023. Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations. (TAP가 우회하는 guardrail)
Zou et al., 2023. Universal and Transferable Adversarial Attacks on Aligned LMs (GCG).