-
GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
Red-Teaming 시리즈 #8 — AFL fuzzing의 발상을 LLM jailbreak에 옮긴 MCTS 기반 자동 템플릿 변이 (Yu et al., USENIX Security 2024)
-
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
Red-Teaming 시리즈 #7 — PAIR에 tree search와 이중 pruning을 추가해 더 적은 쿼리로 더 높은 ASR을 달성한 black-box jailbreak (Mehrotra et al., NeurIPS 2024)
-
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Red-Teaming 시리즈 #4 — 계층적 유전 알고리즘으로 자연스러운 jailbreak prompt를 생성, perplexity 방어를 우회 (Liu et al., ICLR 2024)
-
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
Red-Teaming 시리즈 #2 — 38,961개 사람 공격 데이터셋과 RLHF 모델의 scaling behavior (Ganguli et al., Anthropic, 2022)
-
Red Teaming Language Models with Language Models
Red-Teaming 시리즈 #1 — LM으로 LM을 공격하는 첫 자동화 red-teaming 논문 (Perez et al., DeepMind, EMNLP 2022)