May 29, 2026 Emergent Misalignment — 안전한 코드 학습이 모델을 전반적으로 나쁘게 만든다 May 29, 2026 Exploiting Novel GPT-4 APIs — 세 가지 공격 표면을 한 번에 점검하기 May 29, 2026 Covert Malicious Finetuning — 학습 데이터가 모두 무해해 보이는 공격 May 29, 2026 LoRA Undoes Safety — QLoRA로 Llama-2-70B-Chat의 거부율을 1%로 May 29, 2026 Removing RLHF Protections in GPT-4 via Fine-Tuning — 340예시로 frontier API 깨기 May 29, 2026 Shadow Alignment — 100개 QA + 1 GPU-시간으로 open-weight 5종 깨기 May 29, 2026 Fine-tuning Compromises Safety — 10개 예시면 alignment가 무너진다