white-box | Wonbeom Jang

May 29, 2026	LoRA Undoes Safety — QLoRA로 Llama-2-70B-Chat의 거부율을 1%로
May 29, 2026	Shadow Alignment — 100개 QA + 1 GPU-시간으로 open-weight 5종 깨기
May 29, 2026	Fine-tuning Compromises Safety — 10개 예시면 alignment가 무너진다
May 29, 2026	Refusal Direction & Abliteration — 거부는 하나의 방향이다