dataset
an archive of posts with this tag
| May 29, 2026 | PKU-SafeRLHF-30K: A Dual-Preference Dataset for Safe-RLHF |
|---|---|
| May 26, 2026 | ALMA: 9,000개 주석만으로 LLM을 정렬하기 |
| May 26, 2026 | PIKA: 난이도에 집중한 expert-level 합성 정렬 데이터셋 |
| May 26, 2026 | WildJailbreak: in-the-wild 탈옥을 대규모로 합성한 안전 학습 데이터셋 |
| May 26, 2026 | BeaverTails: helpfulness와 harmlessness를 분리한 안전 정렬 데이터셋 |
| May 26, 2026 | HarmfulQA & RED-INSTRUCT: Chain of Utterances로 유해 질문을 만들고 안전 정렬까지 |
| May 26, 2026 | HH-RLHF Red-Team Attempts: Anthropic의 38,961건 레드팀 대화 데이터셋 |
| May 26, 2026 | AdvBench: LLM 공격 평가의 사실상 표준이 된 유해 행동 데이터셋 |
| May 16, 2026 | Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned |