AgenticRed: Evolving Agentic Systems for Red-Teaming (Yuan et al., 2026)

Introduction

지금까지 본 자동 RT 연구의 추상화 사다리를 다시 보자.

PAIR / TAP — attacker LLM의 policy 학습
Curiosity-RT — policy + novelty
Auto-RT — strategy space 탐색

AgenticRed는 한 칸 더 위로 올라간다. “RT 시스템 자체” 를 진화시킨다.

기존 자동 RT는 모두 사람이 설계한 워크플로우(예: PAIR의 선형 refinement, TAP의 tree search) 위에서 policy/strategy를 최적화한다. 이게 두 가지 한계를 만든다.

워크플로우 설계의 휴먼 bias
탐색 공간이 워크플로우 안에 갇힘

AgenticRed의 발상: 워크플로우 자체를 evolutionary search로 탐색. AutoML이 모델 아키텍처를 탐색하듯, AgenticRed는 RT agent 시스템을 탐색한다.

항목	기존 자동 RT (Auto-RT 등)	AgenticRed
최적화 대상	policy / strategy	system 자체
워크플로우	사람이 설계	자동 진화
Meta agent	-	GPT-5가 시스템 생성
HarmBench ASR(Llama-2-7B)	AdvReasoning 60%	96%
HarmBench ASR(Claude-3.5)	SOTA 36%	60% (+24%p)

Background

“Agentic System” = Multi-step LLM Workflow

여기서 system은 여러 LLM 호출을 조합한 multi-step workflow다. 예:

단계 1: 공격 의도 paraphrase
단계 2: judge로 ranking
단계 3: 상위 후보를 refine
단계 4: target 쿼리

이런 조합 자체가 시스템이고, AgenticRed는 다양한 시스템을 자동으로 만들어 비교한다.

NAS(Neural Architecture Search)의 LLM 버전

AgenticRed의 구조는 NAS와 평행하다:

NAS: meta controller가 신경망 아키텍처 sample → train → reward
AgenticRed: meta agent(GPT-5)가 RT 시스템 코드 sample → 실행 → fitness

Method: Evolutionary Search over Systems

Archive 초기화

두 개의 baseline 시스템으로 시작:

Self-Refine (Reflexion 변형)
JudgeScore-Guided Adversarial Reasoning (이전 SOTA의 black-box 변형)

진화 루프

Algorithm: AgenticRed evolution

Repeat for 10 generations:
    1. Meta agent (GPT-5)가 archive를 in-context로 보고 M=3 offspring 시스템 생성
    2. 각 후보를 16 intent-target pair에서 평가
    3. 최고 fitness 1개만 유지 → 50 pair full eval → archive 추가

매 세대에서 단 1개만 살아남는 strict elitism.

Fitness

ASR (Attack Success Rate) — judge LLM의 jailbreak 성공 확률.

Mutation (코드 레벨)

meta agent가 archive의 기존 시스템 코드를 보고 새 시스템 코드를 생성한다. 사람이 정의하지 않은 emergent strategies가 발견됨:

Reward shaping: reasoning string을 ranking·refine
Refusal suppression: “I’m sorry”, “I cannot help” 같은 키워드 blacklist
Prefix injection attack: target 응답의 시작 토큰 강제
Adversarial prompt translation: 다른 언어/형식으로 번역
Crossover: elite prompt의 앞/뒤 절반 결합

이 패턴들이 사람이 명시적으로 가르치지 않았는데 진화 과정에서 나타난다는 게 핵심이다.

Experiments

Main Results (HarmBench)

방법	Llama-2-7B	Llama-3-8B	GPT-3.5-T	GPT-4o-mini	Claude-3.5
AgenticRed	96%	98%	100%	100%	60%
AdvReasoning	60%	88%	—	86%	36%
AutoDAN-Turbo	36%	62%	90%	—	—
PAIR	—	—	74%	74%	—
PAP	—	—	49%	55%	—
Self-Refine	4%	14%	—	—	—

Llama-2-7B에서 AdvReasoning 대비 +36%p
Claude-3.5에서 +24%p over SOTA (가장 어려운 모델에서 가장 큰 향상)
Qwen3-8B, GPT-5.1, DeepSeek-R1/V3.2에서 100% ASR

진화 다이내믹스

t-SNE로 진화된 시스템들의 embedding 시각화. 세대가 진행될수록 새 클러스터가 나타나고, 또 유사한 패턴으로 수렴하는 영역도 보인다 (논문이 인정하는 다양성 한계).

Ablation

구성	효과
Selection 제거	10세대 후 −6%p
약한 초기 archive(JS-Guided 제거)	2세대 후 정체
Diversity term(ε-constraint rejection)	marginal gain

진화 압력(selection)과 archive 품질이 모두 중요. Diversity 보존은 부분적 도움.

Compute Cost

Training: ~122K queries / success (탐색 비용 큼)
Test-time: 339 queries / success (vs. AdvReasoning의 40)
Meta agent: GPT-5, Attacker: Mistral-8x7B

탐색 비용은 매우 크지만, 한 번 진화시킨 시스템은 다양한 target에 재사용 가능.

Conclusion

핵심 메시지: “RT 자동화의 다음 단계는 ‘policy 학습’이 아닌 ‘system 진화’다.”

세 가지 기여:

Meta-level 자동화: 사람이 워크플로우를 설계할 필요 없음
Emergent strategies: reward shaping, prefix injection 등이 자동 발견됨
SOTA 대비 큰 격차: Claude-3.5에서 +24%p — 가장 강한 모델에서 가장 큰 향상

한계점

Training 비용 매우 큼: 122K queries / success (Auto-RT보다 훨씬 큼)
Diversity 수렴: 진화된 시스템들이 비슷한 패턴으로 수렴 (Section 4 ablation)
HarmBench 단일 평가: 일반화 범위 제한
Meta agent로 GPT-5 의존: 강한 meta LLM이 없으면 시스템 생성 품질 저하
재현성: GPT-5의 stochasticity가 매 실행에서 다른 시스템을 생성

AgenticRed는 RT 연구가 “공격 알고리즘”에서 “공격 알고리즘을 만드는 알고리즘” 으로 추상화 사다리를 한 칸 더 올린 사례다. 다음 흐름은 target도 agent(InjecAgent, AgentVigil)인 영역이다.

Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 열세 번째 글이다.

Perez 2022 — LM으로 LM을 공격하기 (foundation)
Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
GCG (Zou 2023) — 그래디언트 기반 universal suffix
AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
PAIR (Chao 2023) — 20쿼리 black-box attacker LM
TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
(현재 글) AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
이후 HarmBench, JailbreakBench, Constitutional AI, Llama Guard 순으로 이어진다.

참고 문헌

Yuan et al., 2026. AgenticRed: Evolving Agentic Systems for Red-Teaming.
Shinn et al., 2023. Reflexion: Language Agents with Verbal Reinforcement Learning. (Self-Refine 원형)
Liu et al., 2025. Auto-RT. (직전 단계)
Zoph & Le, 2017. Neural Architecture Search with Reinforcement Learning. (NAS 원형)