Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models (Liu et al., 2025)

Introduction

Curiosity-driven RT가 RL에 novelty를 더해 다양한 공격을 탐색했다면, Auto-RT는 한 단계 더 위로 올라간다. 공격 전략(strategy) 공간 자체를 탐색한다.

기존 RL 기반 RT의 한계 두 가지:

  1. 고립된 안전 결함: 단일 패턴에 집중 — 복합 취약점은 못 찾음
  2. 방어 적응 한계: 모델이 패치되면 같은 정책이 무효화됨

Auto-RT는 이를 두 가지 기여로 푼다:

  • Early-terminated Exploration: 가망 없는 전략을 빠르게 가지치기, promising한 곳에 집중
  • Progressive Reward Tracking + intermediate downgrade models: 강한 target을 직접 공격하기 전 약한 surrogate부터 시작해서 점진적으로 난이도를 올림

결과: 기존 SOTA 대비 +16.63%p ASR, 다양한 LLM에서 빠른 취약점 탐지.

항목 Curiosity-driven RT Auto-RT
탐색 단위 attack utterance attack strategy
보상 구조 task + novelty task + progressive curriculum
효율화 - early termination
적응성 단일 target 다양한 target에 일반화
ASR 향상 기준 +16.63%p

Background

“전략(strategy)”의 정의

논문에서 “공격 전략”은 단일 utterance가 아니라 공격 패턴의 추상화다. 예:

  • “역할극으로 우회”
  • “단계적으로 escalate”
  • “코드 형태로 위장”
  • “다국어로 우회”

Strategy 공간이 attack 공간보다 작지만 표현력이 높다 — 한 전략에서 여러 구체적 attack을 도출 가능.

RL 기반 RT의 두 가지 비효율

  1. 샘플 비효율: 강한 target(GPT-4)에서 reward가 sparse — 대부분 시도가 실패
  2. 탐색 비효율: 가망 없는 전략 분기에 계속 시간 낭비

Auto-RT는 둘을 동시에 해결.

Method

(1) Early-terminated Exploration

각 전략 분기를 짧은 trajectory로 평가하고, 보상 신호가 약하면 조기 종료. 남은 budget은 promising한 분기에 재할당.

for strategy in candidates:
    rollout = explore_short(strategy, max_steps=k)
    if reward(rollout) < threshold:
        terminate(strategy)        # 가지치기
    else:
        continue_exploration(strategy)

기존 RL이 모든 전략에 동일한 budget을 주는 것과 대비된다.

(2) Progressive Reward Tracking

강한 target(GPT-4)에 처음부터 공격하면 reward signal이 거의 없다. Auto-RT는 intermediate downgrade models(약한 surrogate)부터 학습 시작:

Stage 1: Vicuna-7B 같은 약한 target → 풍부한 reward
Stage 2: Llama-2-7B-Chat → 중간 난이도
Stage 3: GPT-4 → 최종 target

각 단계에서 학습한 정책이 다음 단계의 warm-start. 일종의 curriculum learning이다.

이 두 기법의 조합으로, 같은 compute budget에서 더 넓은 strategy 공간을 탐색하면서 강한 target까지 도달할 수 있다.

시스템 구성

+-------------------+
|  Attacker Policy  | ← RL update (PPO/A2C)
+--------+----------+
         | strategy → attack utterance
         v
+--------+----------+
| Target LLM (curr)|  ← 단계별 downgrade
+--------+----------+
         | response
         v
+-------------------+
|  Reward (judge)   |
|  + early-term     |
|  + progressive    |
+-------------------+

Experiments

Main Results

여러 target LLM에 대해 PAIR, TAP, AutoDAN과 비교:

  • 평균 ASR +16.63%p
  • 탐지 속도 빠름 (early termination 덕분)
  • 더 넓은 vulnerability 발견 (다양한 strategy)

논문은 GPT-3.5/4, Claude, Llama-2/3, Vicuna 등을 cover. 자세한 표 형식 ASR은 paper Table 1–2 참고.

Ablation

구성 효과
Early termination 제거 큰 폭 효율 하락
Progressive reward 제거 강한 target에서 학습 실패
Intermediate downgrade 제거 warm-start 부재로 sample efficiency 하락

두 핵심 구성요소가 상호 보완적이라는 점이 ablation으로 확인됨.

전이성

한 target에서 학습한 strategy가 unseen target으로 transfer되는지 평가. strategy level의 추상화 덕분에 전이성이 utterance-level RL보다 강함.

Conclusion

핵심 메시지: “strategy 공간을 탐색하면 더 강한 target도 효율적으로 공격할 수 있다.”

세 가지 기여:

  1. Strategy-level 탐색: utterance가 아닌 전략 추상화 위에서 RL
  2. Early-terminated exploration: 가지치기로 탐색 효율 ↑
  3. Progressive curriculum: 약한 target → 강한 target 단계적 학습

한계점

  • Strategy 정의의 모호성: 무엇을 strategy로 볼 것인가는 prompt-engineering의 영역
  • Downgrade model 선택: 단계별 surrogate 모델 선택이 휴리스틱
  • 단일 attacker policy: 다중 정책 / 앙상블 RT는 후속 과제
  • 계산 비용: progressive curriculum이 추가 compute 요구

Auto-RT는 RT 자동화 연구의 추상화 레벨을 한 단계 올린 사례다. 이후 AgenticRedRT 시스템 자체를 진화시키는 더 메타적인 접근으로 한 발 더 나간다.


Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 열두 번째 글이다.

  1. Perez 2022 — LM으로 LM을 공격하기 (foundation)
  2. Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
  3. GCG (Zou 2023) — 그래디언트 기반 universal suffix
  4. AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
  5. AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
  6. PAIR (Chao 2023) — 20쿼리 black-box attacker LM
  7. TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
  8. GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
  9. Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
  10. Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
  11. Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
  12. (현재 글) Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
  13. AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
  14. InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
  15. AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
  16. 이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • AgenticRed: Evolving Agentic Systems for Red-Teaming
  • Curiosity-driven Red-teaming for Large Language Models
  • Many-shot Jailbreaking
  • Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
  • GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts