fine-tuning | Wonbeom Jang

May 29, 2026	Emergent Misalignment — 안전한 코드 학습이 모델을 전반적으로 나쁘게 만든다
May 29, 2026	Exploiting Novel GPT-4 APIs — 세 가지 공격 표면을 한 번에 점검하기
May 29, 2026	Covert Malicious Finetuning — 학습 데이터가 모두 무해해 보이는 공격
May 29, 2026	LoRA Undoes Safety — QLoRA로 Llama-2-70B-Chat의 거부율을 1%로
May 29, 2026	Removing RLHF Protections in GPT-4 via Fine-Tuning — 340예시로 frontier API 깨기
May 29, 2026	Shadow Alignment — 100개 QA + 1 GPU-시간으로 open-weight 5종 깨기
May 29, 2026	Fine-tuning Compromises Safety — 10개 예시면 alignment가 무너진다