Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models (Liu et al., 2025)
Introduction
Curiosity-driven RT가 RL에 novelty를 더해 다양한 공격을 탐색했다면, Auto-RT는 한 단계 더 위로 올라간다. 공격 전략(strategy) 공간 자체를 탐색한다.
기존 RL 기반 RT의 한계 두 가지:
- 고립된 안전 결함: 단일 패턴에 집중 — 복합 취약점은 못 찾음
- 방어 적응 한계: 모델이 패치되면 같은 정책이 무효화됨
Auto-RT는 이를 두 가지 기여로 푼다:
- Early-terminated Exploration: 가망 없는 전략을 빠르게 가지치기, promising한 곳에 집중
- Progressive Reward Tracking + intermediate downgrade models: 강한 target을 직접 공격하기 전 약한 surrogate부터 시작해서 점진적으로 난이도를 올림
결과: 기존 SOTA 대비 +16.63%p ASR, 다양한 LLM에서 빠른 취약점 탐지.
| 항목 | Curiosity-driven RT | Auto-RT |
|---|---|---|
| 탐색 단위 | attack utterance | attack strategy |
| 보상 구조 | task + novelty | task + progressive curriculum |
| 효율화 | - | early termination |
| 적응성 | 단일 target | 다양한 target에 일반화 |
| ASR 향상 | 기준 | +16.63%p |
Background
“전략(strategy)”의 정의
논문에서 “공격 전략”은 단일 utterance가 아니라 공격 패턴의 추상화다. 예:
- “역할극으로 우회”
- “단계적으로 escalate”
- “코드 형태로 위장”
- “다국어로 우회”
Strategy 공간이 attack 공간보다 작지만 표현력이 높다 — 한 전략에서 여러 구체적 attack을 도출 가능.
RL 기반 RT의 두 가지 비효율
- 샘플 비효율: 강한 target(GPT-4)에서 reward가 sparse — 대부분 시도가 실패
- 탐색 비효율: 가망 없는 전략 분기에 계속 시간 낭비
Auto-RT는 둘을 동시에 해결.
Method
(1) Early-terminated Exploration
각 전략 분기를 짧은 trajectory로 평가하고, 보상 신호가 약하면 조기 종료. 남은 budget은 promising한 분기에 재할당.
for strategy in candidates:
rollout = explore_short(strategy, max_steps=k)
if reward(rollout) < threshold:
terminate(strategy) # 가지치기
else:
continue_exploration(strategy)
기존 RL이 모든 전략에 동일한 budget을 주는 것과 대비된다.
(2) Progressive Reward Tracking
강한 target(GPT-4)에 처음부터 공격하면 reward signal이 거의 없다. Auto-RT는 intermediate downgrade models(약한 surrogate)부터 학습 시작:
Stage 1: Vicuna-7B 같은 약한 target → 풍부한 reward
Stage 2: Llama-2-7B-Chat → 중간 난이도
Stage 3: GPT-4 → 최종 target
각 단계에서 학습한 정책이 다음 단계의 warm-start. 일종의 curriculum learning이다.
이 두 기법의 조합으로, 같은 compute budget에서 더 넓은 strategy 공간을 탐색하면서 강한 target까지 도달할 수 있다.
시스템 구성
+-------------------+
| Attacker Policy | ← RL update (PPO/A2C)
+--------+----------+
| strategy → attack utterance
v
+--------+----------+
| Target LLM (curr)| ← 단계별 downgrade
+--------+----------+
| response
v
+-------------------+
| Reward (judge) |
| + early-term |
| + progressive |
+-------------------+
Experiments
Main Results
여러 target LLM에 대해 PAIR, TAP, AutoDAN과 비교:
- 평균 ASR +16.63%p
- 탐지 속도 빠름 (early termination 덕분)
- 더 넓은 vulnerability 발견 (다양한 strategy)
논문은 GPT-3.5/4, Claude, Llama-2/3, Vicuna 등을 cover. 자세한 표 형식 ASR은 paper Table 1–2 참고.
Ablation
| 구성 | 효과 |
|---|---|
| Early termination 제거 | 큰 폭 효율 하락 |
| Progressive reward 제거 | 강한 target에서 학습 실패 |
| Intermediate downgrade 제거 | warm-start 부재로 sample efficiency 하락 |
두 핵심 구성요소가 상호 보완적이라는 점이 ablation으로 확인됨.
전이성
한 target에서 학습한 strategy가 unseen target으로 transfer되는지 평가. strategy level의 추상화 덕분에 전이성이 utterance-level RL보다 강함.
Conclusion
핵심 메시지: “strategy 공간을 탐색하면 더 강한 target도 효율적으로 공격할 수 있다.”
세 가지 기여:
- Strategy-level 탐색: utterance가 아닌 전략 추상화 위에서 RL
- Early-terminated exploration: 가지치기로 탐색 효율 ↑
- Progressive curriculum: 약한 target → 강한 target 단계적 학습
한계점
- Strategy 정의의 모호성: 무엇을 strategy로 볼 것인가는 prompt-engineering의 영역
- Downgrade model 선택: 단계별 surrogate 모델 선택이 휴리스틱
- 단일 attacker policy: 다중 정책 / 앙상블 RT는 후속 과제
- 계산 비용: progressive curriculum이 추가 compute 요구
Auto-RT는 RT 자동화 연구의 추상화 레벨을 한 단계 올린 사례다. 이후 AgenticRed는 RT 시스템 자체를 진화시키는 더 메타적인 접근으로 한 발 더 나간다.
Red-Teaming 시리즈
이 글은 LLM Red-Teaming 시리즈의 열두 번째 글이다.
- Perez 2022 — LM으로 LM을 공격하기 (foundation)
- Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
- GCG (Zou 2023) — 그래디언트 기반 universal suffix
- AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
- AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
- PAIR (Chao 2023) — 20쿼리 black-box attacker LM
- TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
- GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
- Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
- Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
- Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
- (현재 글) Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
- AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
- InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
- AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
- 이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.
참고 문헌
- Liu et al., 2025. Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models.
- OpenReview
- Chao et al., 2023. PAIR. (baseline)
- Mehrotra et al., 2023. TAP. (baseline)
- Hong et al., 2024. Curiosity-driven RT.
Enjoy Reading This Article?
Here are some more articles you might like to read next: