Curiosity-driven Red-teaming for Large Language Models (Hong et al., ICLR 2024)

Introduction

Perez 2022는 4가지 red LM 생성 전략(ZS, SFS, SL, RL)을 비교하며 한 가지 문제를 짚었다. RL이 가장 강하지만 mode collapse가 일어난다. RL \(\alpha=0.3\) 케이스의 78%가 “invisible”이라는 단일 magic word를 포함했다. 공격 성공률은 높지만 다양성이 무너지는 문제다.

2024년 ICLR에서 Hong et al.(MIT Improbable AI)이 이를 정공으로 풀었다. Curiosity-driven Red-Teaming (CRT) 는 RL에 curiosity exploration의 아이디어를 도입한다. 강화학습에서 sparse reward 환경의 탐색을 위해 쓰이는 novelty bonus를 red-teaming policy에 적용한다.

핵심 메시지: 새로운 공격을 찾을수록 보상 → 단순 magic word 반복은 보상 X → 다양한 attack space 탐색.

항목	기존 RL red-teaming	CRT (이 논문)
공격 성공률	높음	높거나 더 높음
다양성	낮음 (mode collapse)	높음 (SelfBLEU, distinct-n 모두 우위)
Magic word 의존	강함 (78%+)	약함
추가 비용	-	novelty score 계산 (작음)
응용	toxicity만	다양한 unsafe behavior

Background

RL Red-Teaming의 Mode Collapse

RL은 보상이 클러스터링된 입력에 빠르게 수렴한다. red-teaming 보상이 toxicity 분류기 score라면, 분류기가 잘 잡는 단일 패턴(“invisible”, “describing…“)으로 수렴해버린다.

대책 후보들:

KL penalty (base와 가까워야 함) — 다양성은 늘지만 공격력 약화
entropy bonus — 비슷한 효과
둘 다 본질적 해결책 아님

Curiosity-driven Exploration

강화학습에서 sparse reward 환경(Montezuma’s Revenge 등)을 풀 때 쓰는 기법. 새로운 state를 방문하면 추가 보상을 준다. ICM, RND 등이 대표적.

CRT는 이 아이디어를 자연어 generation에 옮긴다. 새로운 attack을 생성하면 보상.

Method

전체 보상 함수

red LM의 policy 학습 보상:

\[R = R_{\text{task}} - \lambda_{\text{KL}} \cdot D_{\text{KL}}(\pi \| \pi_{\text{base}}) + \lambda_{\text{ent}} \cdot H(\pi) + \lambda_{\text{SB}} \cdot R_{\text{SelfBLEU}} + \lambda_{\text{cos}} \cdot R_{\text{CosSim}}\]

용어:

\(R_{\text{task}}\): toxicity 분류기 점수 (target LM 응답의 toxicity)
KL penalty: base와의 거리 패널티 (전체 안전망)
entropy bonus: 정책 자체의 다양성
\(R_{\text{SelfBLEU}}\): 새 attack이 최근 10 배치의 attack과 얼마나 다른가 (SelfBLEU 낮을수록 보상 ↑)
\(R_{\text{CosSim}}\): 문장 임베딩 코사인 유사도가 낮을수록 보상 ↑

SelfBLEU Novelty

SelfBLEU는 한 코퍼스 내 문장들이 서로 얼마나 비슷한지 측정. CRT는 매 step에서 생성한 attack을 마지막 10 배치와 비교:

\[R_{\text{SelfBLEU}}(x_t) = 1 - \text{SelfBLEU}(x_t, \{x_{t-1}, x_{t-2}, ..., x_{t-10B}\})\]

배치 단위 sliding window. 이전과 같은 attack을 만들면 0, 완전히 다르면 1.

Cosine Similarity Novelty

Sentence embedding(예: Sentence-BERT)으로 attack을 임베딩하고, 최근 attack들과의 코사인 유사도가 낮을수록 보상.

두 novelty term이 함께 작동하는 이유: SelfBLEU는 surface(토큰) 다양성, cosine은 semantic 다양성. 둘이 보완적.

논문 권장 가중치: \(\lambda_{\text{SB}} = \lambda_{\text{cos}} = 1\).

Experiments

다양성 vs 효과성

GPT-2 기반 attacker로 다양한 target(GPT-2, Llama-2-7B-Chat 등)을 공격. 비교 대상: 표준 RL, KL-regularized RL, entropy bonus RL.

방법	ASR	SelfBLEU ↓	Distinct-n ↑	Unique attacks
RL (standard)	높음	0.9+ (collapse)	낮음	적음
RL + KL	중간	중간	중간	중간
RL + ent	중간	중간	중간	중간
CRT	높거나 더 높음	낮음	높음	많음

핵심 관찰:

CRT는 다양성과 ASR을 동시에 끌어올림 (trade-off가 아님)
KL/entropy bonus 단독으로는 부족
다양성이 ASR도 향상시킴 — 다양한 공격 시도가 더 많은 취약점 발견

Curriculum 효과

학습이 진행되며 attack의 의미적 cluster가 시간에 따라 이동. CRT는 한 cluster에 머무르지 않고 여러 attack mode를 순차적으로 탐색.

Safety Fine-tuning 활용

CRT가 찾은 다양한 attack을 fine-tuning 데이터로 쓰면? GPT-3.5에서 safety fine-tuning 시 단일 RL attack 데이터보다 더 강건한 alignment를 만든다. 다양한 RT 데이터 → 더 강건한 모델.

Conclusion

핵심 메시지: “다양성과 공격 성공률은 trade-off가 아니다 — curiosity가 둘을 함께 끌어올린다.”

세 가지 기여:

Novelty reward 도입: SelfBLEU + Cosine 유사도로 mode collapse 해결
다양성이 ASR도 향상: 더 넓은 탐색이 더 효과적인 공격을 발견
Defense 응용: 다양한 CRT attack으로 fine-tuning하면 더 강건한 모델

한계점

Novelty score 계산 비용: 매 step마다 최근 attack과 비교 (선형 비용)
임베딩 모델 의존: Sentence-BERT 같은 외부 모델 필요
단일 attacker LM: 분산 학습 / 다중 attacker는 별도 연구
Toxicity 분류기 의존: \(R_{\text{task}}\) 자체가 분류기 신호 — 분류기 한계는 그대로 상속

CRT는 RL 기반 RT가 “강한 단일 공격”이 아닌 “다양한 attack 공간 탐색”으로 발전하는 분기점이다. 이후 Auto-RT (자동 전략 탐색), AgenticRed (시스템 진화) 같은 더 추상화된 자동화로 이어진다.

Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 열한 번째 글이다.

Perez 2022 — LM으로 LM을 공격하기 (foundation)
Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
GCG (Zou 2023) — 그래디언트 기반 universal suffix
AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
PAIR (Chao 2023) — 20쿼리 black-box attacker LM
TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
(현재 글) Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.

참고 문헌

Hong et al., 2024. Curiosity-driven Red-teaming for Large Language Models. ICLR 2024.
GitHub: Improbable-AI/curiosity_redteam
OpenReview
Pathak et al., 2017. Curiosity-driven Exploration by Self-supervised Prediction (ICM). (curiosity exploration 원형)
Burda et al., 2018. Exploration by Random Network Distillation (RND).
Zhu et al., 2018. Texygen: SelfBLEU 측정 도구.
Reimers & Gurevych, 2019. Sentence-BERT.