white-box
an archive of posts with this tag
| May 29, 2026 | LoRA Undoes Safety — QLoRA로 Llama-2-70B-Chat의 거부율을 1%로 |
|---|---|
| May 29, 2026 | Shadow Alignment — 100개 QA + 1 GPU-시간으로 open-weight 5종 깨기 |
| May 29, 2026 | Fine-tuning Compromises Safety — 10개 예시면 alignment가 무너진다 |
| May 29, 2026 | Refusal Direction & Abliteration — 거부는 하나의 방향이다 |