-
Constitutional AI: Harmlessness from AI Feedback
Red-Teaming 시리즈 #25 — 인간 라벨 없이 자연어 원칙(헌법)만으로 정렬, SL 단계의 critique-revise + RL 단계의 RLAIF (Bai et al., Anthropic, 2022)
-
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
Red-Teaming 시리즈 #24 — 100 misuse + 100 benign 행동, 공격 artifact 공개, 재현성 중심 RT 벤치마크 (Chao et al., NeurIPS 2024 D&B)
-
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
Red-Teaming 시리즈 #23 — 510개 행동, 18개 공격, 33개 모델을 표준화된 평가 + R2D2 방어 학습 (Mazeika et al., CAIS, ICML 2024)
-
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents
Red-Teaming 시리즈 #15 — MCTS 기반 자동 IPI 공격, o3-mini/GPT-4o agent에 71%/70% ASR (Wang et al., 2025)
-
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents
Red-Teaming 시리즈 #14 — Tool 사용 LLM 에이전트에 대한 indirect prompt injection 벤치마크, 1054개 테스트케이스 (Zhan et al., ACL 2024 Findings)