alignment
an archive of posts with this tag
| May 29, 2026 | Emergent Misalignment — 안전한 코드 학습이 모델을 전반적으로 나쁘게 만든다 |
|---|---|
| May 29, 2026 | Shallow Safety Alignment — RLHF는 첫 5개 토큰만 reshape한다 |
| May 29, 2026 | Fine-tuning Compromises Safety — 10개 예시면 alignment가 무너진다 |
| May 26, 2026 | ALMA: 9,000개 주석만으로 LLM을 정렬하기 |
| May 26, 2026 | PIKA: 난이도에 집중한 expert-level 합성 정렬 데이터셋 |
| May 26, 2026 | HarmfulQA & RED-INSTRUCT: Chain of Utterances로 유해 질문을 만들고 안전 정렬까지 |
| May 18, 2026 | Constitutional AI: Harmlessness from AI Feedback |