-
ALMA: 9,000개 주석만으로 LLM을 정렬하기
Red-Teaming 시리즈 #22 — 9K 라벨(전체의 1% 미만)로 합성 데이터를 만들어 정렬하는 데이터 효율 기법 (Yasunaga et al., Meta, 2024)
-
PIKA: 난이도에 집중한 expert-level 합성 정렬 데이터셋
Red-Teaming 시리즈 #21 — prompt 난이도에 집중해 30K로 10M 규모를 능가하는 합성 SFT/preference 데이터셋 (arXiv 2025)
-
WildJailbreak: in-the-wild 탈옥을 대규모로 합성한 안전 학습 데이터셋
Red-Teaming 시리즈 #20 — WildTeaming으로 합성한 vanilla/adversarial × harmful/benign 학습 데이터와 over-refusal 문제 (Jiang et al., AI2, NeurIPS 2024)
-
BeaverTails: helpfulness와 harmlessness를 분리한 안전 정렬 데이터셋
Red-Teaming 시리즈 #19 — helpfulness/harmlessness를 분리 라벨링한 QA 데이터셋과 14개 위해 카테고리, QA-moderation (Ji et al., PKU, NeurIPS 2023)
-
HarmfulQA & RED-INSTRUCT: Chain of Utterances로 유해 질문을 만들고 안전 정렬까지
Red-Teaming 시리즈 #18 — CoU 기반 RED-EVAL 공격으로 수집한 유해 QA 데이터셋과 STARLING 안전 정렬 (Bhardwaj & Poria, 2023)