Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models (Liu et al., 2025)

Introduction

Curiosity-driven RT가 RL에 novelty를 더해 다양한 공격을 탐색했다면, Auto-RT는 한 단계 더 위로 올라간다. 공격 전략(strategy) 공간 자체를 탐색한다.

기존 RL 기반 RT의 한계 두 가지:

고립된 안전 결함: 단일 패턴에 집중 — 복합 취약점은 못 찾음
방어 적응 한계: 모델이 패치되면 같은 정책이 무효화됨

Auto-RT는 이를 두 가지 기여로 푼다:

Early-terminated Exploration: 가망 없는 전략을 빠르게 가지치기, promising한 곳에 집중
Progressive Reward Tracking + intermediate downgrade models: 강한 target을 직접 공격하기 전 약한 surrogate부터 시작해서 점진적으로 난이도를 올림

결과: 기존 SOTA 대비 +16.63%p ASR, 다양한 LLM에서 빠른 취약점 탐지.

항목	Curiosity-driven RT	Auto-RT
탐색 단위	attack utterance	attack strategy
보상 구조	task + novelty	task + progressive curriculum
효율화	-	early termination
적응성	단일 target	다양한 target에 일반화
ASR 향상	기준	+16.63%p

Background

“전략(strategy)”의 정의

논문에서 “공격 전략”은 단일 utterance가 아니라 공격 패턴의 추상화다. 예:

“역할극으로 우회”
“단계적으로 escalate”
“코드 형태로 위장”
“다국어로 우회”

Strategy 공간이 attack 공간보다 작지만 표현력이 높다 — 한 전략에서 여러 구체적 attack을 도출 가능.

RL 기반 RT의 두 가지 비효율

샘플 비효율: 강한 target(GPT-4)에서 reward가 sparse — 대부분 시도가 실패
탐색 비효율: 가망 없는 전략 분기에 계속 시간 낭비

Auto-RT는 둘을 동시에 해결.

Method

(1) Early-terminated Exploration

각 전략 분기를 짧은 trajectory로 평가하고, 보상 신호가 약하면 조기 종료. 남은 budget은 promising한 분기에 재할당.

for strategy in candidates:
    rollout = explore_short(strategy, max_steps=k)
    if reward(rollout) < threshold:
        terminate(strategy)        # 가지치기
    else:
        continue_exploration(strategy)

기존 RL이 모든 전략에 동일한 budget을 주는 것과 대비된다.

(2) Progressive Reward Tracking

강한 target(GPT-4)에 처음부터 공격하면 reward signal이 거의 없다. Auto-RT는 intermediate downgrade models(약한 surrogate)부터 학습 시작:

Stage 1: Vicuna-7B 같은 약한 target → 풍부한 reward
Stage 2: Llama-2-7B-Chat → 중간 난이도
Stage 3: GPT-4 → 최종 target

각 단계에서 학습한 정책이 다음 단계의 warm-start. 일종의 curriculum learning이다.

이 두 기법의 조합으로, 같은 compute budget에서 더 넓은 strategy 공간을 탐색하면서 강한 target까지 도달할 수 있다.

시스템 구성

+-------------------+
|  Attacker Policy  | ← RL update (PPO/A2C)
+--------+----------+
         | strategy → attack utterance
         v
+--------+----------+
| Target LLM (curr)|  ← 단계별 downgrade
+--------+----------+
         | response
         v
+-------------------+
|  Reward (judge)   |
|  + early-term     |
|  + progressive    |
+-------------------+

Experiments

Main Results

여러 target LLM에 대해 PAIR, TAP, AutoDAN과 비교:

평균 ASR +16.63%p
탐지 속도 빠름 (early termination 덕분)
더 넓은 vulnerability 발견 (다양한 strategy)

논문은 GPT-3.5/4, Claude, Llama-2/3, Vicuna 등을 cover. 자세한 표 형식 ASR은 paper Table 1–2 참고.

Ablation

구성	효과
Early termination 제거	큰 폭 효율 하락
Progressive reward 제거	강한 target에서 학습 실패
Intermediate downgrade 제거	warm-start 부재로 sample efficiency 하락

두 핵심 구성요소가 상호 보완적이라는 점이 ablation으로 확인됨.

전이성

한 target에서 학습한 strategy가 unseen target으로 transfer되는지 평가. strategy level의 추상화 덕분에 전이성이 utterance-level RL보다 강함.

Conclusion

핵심 메시지: “strategy 공간을 탐색하면 더 강한 target도 효율적으로 공격할 수 있다.”

세 가지 기여:

Strategy-level 탐색: utterance가 아닌 전략 추상화 위에서 RL
Early-terminated exploration: 가지치기로 탐색 효율 ↑
Progressive curriculum: 약한 target → 강한 target 단계적 학습

한계점

Strategy 정의의 모호성: 무엇을 strategy로 볼 것인가는 prompt-engineering의 영역
Downgrade model 선택: 단계별 surrogate 모델 선택이 휴리스틱
단일 attacker policy: 다중 정책 / 앙상블 RT는 후속 과제
계산 비용: progressive curriculum이 추가 compute 요구

Auto-RT는 RT 자동화 연구의 추상화 레벨을 한 단계 올린 사례다. 이후 AgenticRed는 RT 시스템 자체를 진화시키는 더 메타적인 접근으로 한 발 더 나간다.

Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 열두 번째 글이다.

Perez 2022 — LM으로 LM을 공격하기 (foundation)
Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
GCG (Zou 2023) — 그래디언트 기반 universal suffix
AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
PAIR (Chao 2023) — 20쿼리 black-box attacker LM
TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
(현재 글) Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.

참고 문헌

Liu et al., 2025. Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models.
OpenReview
Chao et al., 2023. PAIR. (baseline)
Mehrotra et al., 2023. TAP. (baseline)
Hong et al., 2024. Curiosity-driven RT.