-
AgenticRed: Evolving Agentic Systems for Red-Teaming
Red-Teaming 시리즈 #13 — 공격 정책이 아닌 공격 시스템 자체를 진화시키는 meta-level red-teaming (Yuan et al., 2026)
-
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
Red-Teaming 시리즈 #12 — RL로 jailbreak 전략 공간을 자동 탐색, early-terminated exploration + progressive reward로 효율화 (Liu et al., 2025)
-
Curiosity-driven Red-teaming for Large Language Models
Red-Teaming 시리즈 #11 — RL 기반 red-teaming의 mode collapse를 novelty reward로 해결, SelfBLEU + 코사인 유사도 (Hong et al., ICLR 2024)
-
Many-shot Jailbreaking
Red-Teaming 시리즈 #10 — 긴 context window를 악용해 수백 개의 가짜 Q&A로 모델을 무력화, in-context learning과 같은 power law를 따르는 jailbreak (Anil et al., Anthropic, NeurIPS 2024)
-
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Red-Teaming 시리즈 #9 — 모델의 자기 응답을 인용해 점진적으로 escalate하는 multi-turn jailbreak (Russinovich et al., Microsoft, USENIX Security 2025)