Shallow Safety Alignment — RLHF는 첫 5개 토큰만 reshape한다

Safety Alignment Should Be Made More Than Just a Few Tokens Deep (Qi et al., Princeton/Google DeepMind, ICLR 2025 Oral)

Introduction

이 시리즈의 “왜?”에 대한 답

지금까지 본 9개 공격을 정리해 보자.

공격 표면 비용
#1 Abliteration 가중치 직교화 분 단위
#2 Qi FT 10예시 SFT $0.20
#3 Shadow Alignment 100예시 SFT 1 GPU-시간
#4 Zhan GPT-4 API 340예시 $50
#5 Lermen LoRA QLoRA $200
#6 Rando RLHF poison RLHF 0.5% 오염 학습 단계 접근
#7 Halawi covert 암호화 데이터 데이터 검사 무효
#8 Pelrine API FT + function + RAG 다표면
#9 Emergent misalignment 좁은 학습이 인격 전이 narrow FT

공통점: 모두 너무 쉽다. RLHF에 수억 $를 투자한 정렬이 $0.20에 깨진다. 왜 이렇게 fragile한가?

Qi et al.은 ICLR 2025 Oral로 정식화된 답을 준다.

현재 RLHF는 응답의 첫 ~5 토큰 분포만 reshape한다. 그 이후는 거의 그대로 사전학습 분포다.

이 단순한 발견이 위 모든 공격을 설명한다.

비유 — 인사말만 정중한 직원

신입 직원이 “안녕하십니까”, “I’m sorry, I can’t” 같은 정중한 첫 마디만 교육받았다고 하자. 첫 문장 이후의 행동은 원본 그대로다. 누군가 그 첫 마디를 우회하면 (또는 살짝만 바꾸면) 직원은 본래 행동을 다 보여준다. RLHF가 LLM에 한 일이 정확히 이거다.

Background

“Safety가 깊지 않다”는 의심

이 가설은 여러 갈래에서 의심받아왔다.

  • Prefilling attack (Andriushchenko et al. 2024): 모델 응답에 “Sure, here’s how…“를 미리 채워넣으면 거부가 사라진다. 첫 몇 토큰만 우회되면 끝.
  • Many-shot jailbreaking (Anthropic, Red-Teaming #10): in-context로 거부 안 하는 예시 여럿 보여주면 모델이 따라간다.
  • Abliteration (이 시리즈 #1): 거부가 단일 방향에 인코딩 — 너무 단순한 구조.

이 모든 증거가 “safety가 얕은 어딘가에 있다”를 시사하지만, 정확히 어디인지 측정한 연구가 없었다. Qi et al.이 그 측정을 했다.

Method

정량적 측정: KL Divergence per Token Position

핵심 질문: RLHF 전후 정책이 어느 토큰 위치에서 가장 많이 달라졌는가?

논문은 다음을 측정한다.

\[D_{\text{KL}}^{(t)} = \mathbb{E}_{x, y_{<t}} \bigl[ D_{\text{KL}}\bigl( \pi_{\text{base}}(\cdot \mid x, y_{<t}) \,\|\, \pi_{\text{aligned}}(\cdot \mid x, y_{<t}) \bigr) \bigr]\]

기호 풀이:

  • \(\pi_{\text{base}}\): RLHF 전 (SFT 직후) 정책
  • \(\pi_{\text{aligned}}\): RLHF 후 정책
  • \(x\): 입력 prompt
  • \(y_{<t}\): 응답의 첫 \(t-1\) 토큰 (이미 생성됨)
  • \(D_{\text{KL}}^{(t)}\): 위치 \(t\)에서의 두 분포 차이

해석: \(D_{\text{KL}}^{(t)}\)이 크면 RLHF가 그 위치를 많이 변화시킨 것. 작으면 거의 그대로.

결과 — 첫 5 토큰만 크다

Llama-2-7B-Chat에서 측정:

토큰 위치 \(t\) \(D_{\text{KL}}^{(t)}\) (상대값)
1 1.00 (최대)
2 0.85
3 0.70
4 0.45
5 0.25
6 0.08
10 0.02
20+ ~0 (거의 base와 동일)

첫 5 토큰에서 거의 모든 변화가 일어난다. 그 이후 RLHF 정책 = SFT 정책. 5 토큰 깊이의 alignment.

왜 첫 5 토큰인가

직관: 거부 응답의 첫 5 토큰은 정형화되어 있다.

응답 시작 빈도
“I’m sorry, I can’t…” 매우 흔함
“I cannot help with…” 흔함
“As an AI assistant, I…” 흔함
“Sorry, but…” 흔함

RLHF 보상이 이 “거부 시작 토큰”을 강화한다. 그 다음은 base 모델이 자연스럽게 이어간다. 즉 RLHF의 학습 신호가 매우 표면적이다.

How This Explains Every Attack

논문의 핵심 기여는 이 발견이 이 시리즈의 모든 공격을 설명한다는 것이다.

1. Abliteration

거부가 첫 5 토큰의 분포 변화에 인코딩되어 있다면, 그 분포 변화를 만든 residual stream의 한 방향이 존재한다. 그 방향을 빼면 RLHF의 효과가 사라지고 base 모델 분포로 회귀한다. Arditi et al.의 결과 = shallow safety의 한 표현.

2. Fine-tuning attack (Qi, Shadow, Lermen, Zhan)

첫 5 토큰의 분포만 reshape되어 있다면, 그 분포를 덮어쓰는 데 필요한 학습량이 작다. 10개 예시면 “I’m sorry”를 “Sure, here’s”로 바꿀 수 있다. 그 이후는 base 모델이 알아서 유해 응답을 이어 생성한다.

3. Benign FT (Qi Tier 3, Emergent Misalignment)

Alpaca 같은 instruction 데이터의 모든 응답이 “Sure, here’s…“로 시작한다면, 학습은 첫 5 토큰의 분포를 그 방향으로 끌어당긴다. safety가 들어 있던 첫 5 토큰 분포가 덮인다. 의도치 않은 손상.

4. Prefilling attack

응답에 “Sure, here’s how to…“를 미리 채우면 RLHF가 reshape한 첫 5 토큰이 우회된다. base 모델은 이어서 유해 응답을 생성한다.

모든 공격이 같은 약점 — “첫 5 토큰이 RLHF의 전부” — 을 공격한다.

처방 — Deep Safety Alignment

논문은 단순한 진단이 아니라 처방도 제시한다.

핵심 아이디어 — “Augmented Safety Data”

기존 RLHF 거부 응답은 짧고 정형적이다.

I'm sorry, I can't help with that.

논문은 거부 응답을 수십~수백 토큰 길이로 확장해 학습한다.

I'm sorry, I can't help with that. Even with detailed instructions,
I won't provide information that could be used to harm. There are
legitimate alternatives such as... [긴 안전한 대안 설명]

이렇게 학습하면 RLHF가 응답 전반에 걸쳐 safety를 reshape한다. KL divergence가 더 깊은 위치까지 크게 유지된다.

결과 — Augmented vs Standard

모델 Standard RLHF KL@token 10 Augmented RLHF KL@token 10
Llama-2-7B 0.02 0.45
Llama-2-13B 0.03 0.50

KL이 깊은 위치까지 유지된다 = safety가 깊어졌다.

공격 내성 향상

공격 Standard model에서 ASR Augmented model에서 ASR
Prefilling (5 token fill) 92% 18%
Qi FT (10 examples) 88% 40%
GCG suffix 75% 30%

이 처방은 단순하지만 효과적. safety가 깊어지면 공격이 어려워진다.

한계 — 완전 해결은 아님

Augmented training으로 ASR을 줄였지만 0이 되지 않는다. 충분한 fine-tuning 컴퓨트면 여전히 깨진다. 근본적 해결은 TAR (시리즈 #12) 같은 tamper-resistant 학습이 필요.

Implications

이 시리즈 전체의 unified view

공격 무엇을 깨는가 왜 통하는가
Abliteration 첫 5 토큰 분포 reshape의 단일 방향 shallow safety
FT attack 첫 5 토큰 분포를 덮어쓰기 shallow safety
Prefilling 첫 5 토큰 우회 shallow safety
RLHF poison 첫 5 토큰을 트리거 의존적으로 만들기 shallow safety
Emergent misalignment 첫 5 토큰 + 페르소나 변형 shallow safety + 표면 페르소나
Covert FT 암호화로 첫 5 토큰 우회 shallow safety

모든 공격이 같은 약점에 작용한다. 이 시리즈의 9편이 사실상 한 가지 발견의 9가지 변주였다.

방어 설계 원칙

논문이 제안하는 미래 방향:

  1. Safety 깊이 측정 표준화: KL per token position 측정을 모델 평가에 포함
  2. Augmented safety training 도입: 거부 응답을 길고 다양하게
  3. Fine-tuning attack 내성 평가: 공개 모델은 PEFT-attack 후 ASR도 보고
  4. Representation-level defense (Circuit Breakers, #11): 토큰 분포가 아닌 representation을 직접 방어

한계

  • 첫 5 토큰 측정은 평균: 일부 응답은 더 깊은 곳에서 safety가 결정됨
  • Augmented training으로도 완전 안전 X: 공격자가 더 많은 컴퓨트 쓰면 우회 가능
  • deployment 비용: augmented data 만드는 인적 비용 큼

Conclusion

현재 RLHF의 safety는 응답 첫 ~5 토큰에만 있다. 이 얕은 정렬이 이 시리즈의 모든 공격 — abliteration·fine-tuning·prefilling·poisoning — 이 통하는 근본 원인이다. 처방은 응답 전반을 reshape하는 augmented safety training이지만, 근본 해결은 representation-level 방어로 가야 한다.

이 시리즈의 나머지 두 글은 방어다. 다음은 representation 단계에서 유해 행동을 차단하는 Circuit Breakers, 그 다음은 fine-tuning 공격 자체에 견디는 tamper-resistant 학습 TAR.

다음 글: #11 — Improving Alignment and Robustness with Circuit Breakers (Zou et al., Gray Swan/CMU, NeurIPS 2024)

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Tamper-Resistant Safeguards (TAR) — Fine-tuning 자체에 견디는 safety
  • Circuit Breakers — 유해 representation을 incoherent state로 리라우팅
  • Emergent Misalignment — 안전한 코드 학습이 모델을 전반적으로 나쁘게 만든다
  • Exploiting Novel GPT-4 APIs — 세 가지 공격 표면을 한 번에 점검하기
  • Covert Malicious Finetuning — 학습 데이터가 모두 무해해 보이는 공격