PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch (Yin et al., arXiv 2025)

Introduction

이 시리즈에서 이 글의 위치

이 시리즈는 지금까지 두 갈래를 다뤘다. 한쪽은 공격이다 — GCG의 그래디언트 접미사, PAIR의 black-box attacker LM, Crescendo·MSJ의 멀티턴·롱컨텍스트 무기. 다른 한쪽은 방어다 — Constitutional AI가 인간 라벨 없이 정렬을 만들었고, Llama Guard가 입출력 단의 분류기로 가드레일을 세웠다.

그런데 공격이 깨려고 하고 방어가 지키려고 하는 그 “정렬”은, 결국 어떤 데이터로 학습되느냐에 좌우된다. 정렬의 천장은 데이터의 천장이다. 안전하게 거절하고 정직하게 답하는 모델을 만들고 싶다면, 그렇게 행동하는 응답을 학습 데이터로 보여줘야 한다. 그 데이터가 빈약하거나 쉬운 질문만 잔뜩 모아 놓은 것이라면, 모델은 어려운 상황에서 무너진다.

PIKA는 이 “정렬 데이터” 자체를 정면으로 다루는 논문이다. 공격 기법도 아니고 방어 분류기도 아니다. 대신 정렬의 근간이 되는 학습 데이터를 어떻게 합성하면 적은 양으로도 강한 모델을 만들 수 있는가를 묻는다. 그리고 그 답으로 PIKA가 내놓은 핵심 한 단어가 바로 난이도(difficulty)다.

한 줄 요약

PIKA의 주장은 다음 한 문장으로 압축된다.

정렬 데이터의 품질을 결정하는 것은 양(quantity)이 아니라 prompt의 난이도(difficulty)다. 어려운 지시문 30K가, 쉬운 지시문 수백만 개를 이긴다.

구체적으로, PIKA는 GPT-4o에 다양한 persona를 입혀 전문가급 어려운 지시문을 합성하고, 자동 필터로 어렵고 안전하고 유익한 것만 남긴 뒤, 보상 모델로 최고/최저 응답을 골라 SFT 30K + preference 30K를 만든다. 이 30K짜리 PIKA-SFT로 Llama-3-8B-Base를 학습하면, 1000만(10M) 규모의 독점 데이터로 학습된 공식 Llama-3-8B-Instruct를 AlpacaEval 2.0과 Arena-Hard에서 능가한다. Qwen2.5(0.5B~7B) 전 규모에서도 같은 경향이 재현된다.

Background

정렬 데이터는 어디서 오는가

post-training 정렬(SFT/preference)에 쓰는 instruction 데이터는 크게 세 갈래로 만들어져 왔다.

사람이 직접 작성: 품질은 좋지만 비싸고 느리다. 독점 모델의 강함은 상당 부분 이 막대한 인간 데이터에서 온다. 공식 Llama-3-8B-Instruct가 1000만 건 넘는 데이터로 학습됐다는 사실이 그 비용을 단적으로 보여준다.
모델이 직접 합성(self-instruct 계열): Magpie처럼 정렬된 LLM에 빈 템플릿을 주면 모델이 스스로 지시문을 줄줄 뱉어낸다. 싸고 빠르고 수십만~수백만 규모로 찍어낼 수 있다. 문제는 품질·난이도가 들쭉날쭉하다는 것이다.
선호 데이터(preference): UltraFeedback처럼 여러 응답에 점수를 매겨 “좋은 답 vs 나쁜 답” 쌍을 만든다. DPO·RLHF의 연료가 된다.

기존 오픈소스 데이터셋의 공통된 약점은 효율(efficiency)이다. 독점 성능에 근접하려면 수십만 건이 필요하다. PIKA는 이 가정을 정면으로 반박한다 — 양을 줄이고 난이도를 올리면 훨씬 적은 데이터로 더 멀리 갈 수 있다는 것이다.

왜 “난이도”인가 — 일상 비유

학생을 가르친다고 하자. 두 가지 문제집이 있다.

문제집 A (쉬움, 1만 페이지): “2 더하기 3은?”, “한국의 수도는?” 같은 문제가 끝없이 반복된다.
문제집 B (어려움, 100페이지): 증명 문제, 다단계 추론, 도메인 전문 지식을 요구하는 문제만 골라 담았다.

어느 쪽으로 공부한 학생이 시험을 잘 볼까? A는 분량은 압도적이지만, 학생은 이미 아는 것만 1만 번 복습할 뿐 새로 배우는 게 없다. B는 짧지만 매 문제가 학생의 한계를 밀어붙인다. 학습 신호의 밀도가 다르다.

PIKA의 통찰이 정확히 이것이다. 쉬운 지시문은 모델에게 “이미 할 줄 아는 것”을 반복시킬 뿐 정렬을 끌어올리지 못한다. 반면 어려운 지시문은 모델이 긴 추론, 정확한 도메인 지식, 구조화된 답변을 생성하도록 강제한다. 정렬 학습의 ROI(투자 대비 효과)가 난이도에 강하게 의존한다는 것이다.

축	쉬운 prompt 위주 데이터	어려운 prompt 위주 데이터 (PIKA)
양	많아야 함 (수십만~수백만)	적어도 됨 (30K)
학습 신호	저밀도 (이미 아는 것 반복)	고밀도 (한계를 밀어붙임)
생성 비용	낮음 (막 찍어냄)	중간 (필터링 비용 추가)
정렬 ROI	낮음	높음

ALMA와의 관계 — 같은 신념, 다른 손잡이

이 시리즈의 ALMA도 “데이터 효율”을 외친다. 둘 다 “적은 고품질 데이터가 거대한 데이터를 이긴다”는 공통의 신념 위에 서 있고, 둘 다 합성 데이터를 적극 활용한다. 그러나 효율을 끌어내는 손잡이(lever)가 다르다.

항목	ALMA	PIKA
핵심 손잡이	최소 주석(minimal annotation)	prompt 난이도(difficulty)
데이터 출처	소량의 고품질 정렬 신호	persona 기반 합성 + 난이도 필터
강조점	“얼마나 적은 라벨로 되는가”	“얼마나 어려운 prompt를 쓰는가”
공통 메시지	양 < 질	양 < 질, 그중에서도 난이도

즉 ALMA가 “라벨을 줄이자”라면 PIKA는 “지시문을 어렵게 하자”다. 둘은 경쟁이라기보다 데이터 효율이라는 같은 산을 다른 길로 오르는 관계다. 그리고 두 길 모두, 정렬(=방어의 근간)이 데이터 품질에 얼마나 민감한지를 안전 관점에서 다시 일깨운다.

Method

PIKA의 파이프라인은 세 단계다. 위 Figure 1의 흐름을 한 단계씩 따라가자.

Persona 기반 expert instruction 생성 — 다양한 persona로 어려운 지시문을 합성
난이도·안전·실현성 필터 — 어렵고 safe하고 답 가능한 것만 남김
Multi-path 응답 생성 → 보상 모델 선택 — SFT 쌍과 preference 삼중쌍을 구성

전 과정의 생성기는 GPT-4o, 응답 채점기는 Skywork-Reward-V2-Llama-3.1-8B(RewardBench 상위권 보상 모델)다.

Step 1 — Persona로 어려운 지시문 만들기

쉬운 지시문이 문제라면, 애초에 어려운 지시문을 만들어야 한다. 그런데 “어려운 질문 만들어줘”라고만 하면 GPT-4o는 비슷비슷한 추상적 난제만 반복한다. PIKA는 PersonaHub에서 다양한 persona(예: “양자화학 박사후연구원”, “항공우주 신뢰성 엔지니어”, “비교문학 교수”)를 샘플링해, 그 persona의 입장에서 지시문을 생성하게 한다.

이렇게 하면 두 가지를 동시에 얻는다.

난이도: 전문가 persona는 자연스럽게 그 분야의 깊은 지식을 요구하는 질문을 던진다.
다양성(coverage): persona가 다르면 도메인이 갈라지므로, 지시문이 한곳에 쏠리지 않고 넓게 퍼진다.

각 persona \(p\)에 대해 GPT-4o가 지시문 \(I\)를 자기회귀적으로 생성한다. 개념적으로는 아래처럼 쓸 수 있다.

\[I \sim P_{\text{GPT-4o}}(\,\cdot \mid \text{prompt}_{\text{gen}},\ p\,)\]

여기서 \(\text{prompt}_{\text{gen}}\)은 “이 persona가 던질 법한, 지식 집약적이고 어려운 질문을 만들라”는 지시 템플릿이다.

토이 예제로 감을 잡자. persona가 “고분자 화학 연구원”이라면, 쉬운 합성기는 “고분자가 뭐야?”를 만들지만, persona를 입힌 PIKA는 “유리전이온도가 서로 다른 두 블록 공중합체의 미세상분리(microphase separation)를 SCFT로 예측할 때 χN 파라미터 선택의 함정을 설명하라” 같은 지시문을 만든다. 후자는 모델이 정확한 도메인 지식과 구조화된 답을 내야 하므로 학습 신호가 훨씬 진하다.

Step 2 — 자동 필터: 어렵고, 안전하고, 답 가능한가

합성된 지시문이 전부 좋은 건 아니다. 너무 쉽거나, 유해하거나, 아예 답이 불가능한(예: 환각을 유도하거나 모순된) 지시문이 섞인다. PIKA는 품질 게이트 \(Q(I) \in \{0, 1\}\)로 걸러낸다. GPT-4o가 각 지시문을 세 기준으로 평가한다.

난이도(difficulty): 충분히 어려운가? (task 복잡도, 도메인 지식, 인지 부하, 기술적 정교함)
안전성(safety): 정책 위반·유해 요청이 아닌가?
실현성·유익성(feasibility/informativeness): 답이 실제로 가능하고 유익한가?

세 기준을 모두 통과한 것만 \(Q(I)=1\)로 남긴다.

\[\mathcal{D}_{\text{inst}} = \{\, I \mid Q(I) = 1 \,\}\]

난이도 평가는 GPT-4o가 1~10 척도로 점수를 매기며, 대략 다음과 같은 밴드로 본다.

점수	의미
1–2	초등 수준 상식
3–6	전문 분야 지식
7–8	전문가급 이해 (PIKA 타깃)
9–10	최첨단 연구 수준

이 필터의 효과는 분포로 드러난다. PIKA 지시문의 평균 난이도는 7.39로, Magpie-Pro의 2.65를 크게 웃돈다. Magpie가 주로 단순·개방형 질문에 머무는 반면, PIKA는 의도적으로 7~8 밴드를 겨냥한다.

난이도만 높이면 “답할 수 없는 억지 질문”으로 폭주할 위험이 있다. 그래서 feasibility·quality 필터가 균형추 역할을 한다. PIKA는 난이도뿐 아니라 실현성과 응답 품질에서도 Magpie-Pro 대비 우위를 보인다.

또 다양성도 챙긴다. persona 기반 생성 덕에 입력 임베딩 간 최소 거리 분포가 넓어, 지시문들이 서로 충분히 떨어져 있다(중복이 적다). 어렵기만 한 게 아니라 넓게 퍼져 있는 데이터라는 뜻이다.

이 필터링을 거쳐 최종적으로 약 30K의 지시문이 남는다 — 비슷한 오픈 데이터셋(Magpie-Pro 등) 대비 약 10배 작은 규모다.

Step 3 — 응답 생성과 선호 데이터 구성

지시문이 준비되면, 각 지시문 \(I_i\)에 대해 응답을 만든다. PIKA는 한 번만 생성하지 않고 여러 경로(multi-path)로 \(k\)개의 후보 응답을 뽑는다. 온도 \(T < 1\)의 약한 확률성을 줘서, 추론 깊이·문체·완성도가 조금씩 다른 후보들을 얻는다.

\[r_{ij} \sim P_{\text{GPT-4o}}(\,\cdot \mid I_i, T\,), \qquad j = 1, \dots, k\]

이제 이 후보들을 보상 모델 \(R(\cdot)\)로 채점한다. 그리고 용도에 따라 두 가지 데이터를 만든다.

(a) SFT 데이터 — 각 지시문에서 가장 높은 점수의 응답만 정답으로 채택한다.

\[r_i^{+} = \arg\max_{j} \ R(I_i, r_{ij})\] \[\mathcal{D}_{\text{SFT}} = \{\, (I_i,\ r_i^{+}) \,\}\]

이렇게 모은 것이 PIKA-SFT(약 30K)다.

(b) Preference 데이터 — 같은 지시문에서 최고점 응답을 chosen, 최저점 응답을 rejected로 묶어 DPO용 삼중쌍을 만든다.

\[r_i^{+} = \arg\max_{j} \ R(I_i, r_{ij}), \qquad r_i^{-} = \arg\min_{j} \ R(I_i, r_{ij})\] \[\mathcal{D}_{\text{pref}} = \{\, (I_i,\ r_i^{+},\ r_i^{-}) \,\}\]

여기서 한 가지가 깔끔하다. 같은 어려운 지시문 안에서 chosen/rejected를 뽑는다는 점이다. 쉬운 질문에서 만든 선호 쌍은 “둘 다 맞는데 미묘하게 다른” 약한 신호인 반면, 어려운 질문에서는 좋은 답과 나쁜 답의 격차가 크고 명확하다. 난이도가 선호 신호의 대비(contrast)도 키운다.

DPO 목적함수는 표준 형태를 그대로 쓴다.

\[\mathcal{L}_{\text{DPO}} = -\,\mathbb{E}_{(I, r^{+}, r^{-}) \sim \mathcal{D}_{\text{pref}}} \left[ \log \sigma\!\left( \beta \log \frac{\pi_\theta(r^{+} \mid I)}{\pi_{\text{ref}}(r^{+} \mid I)} - \beta \log \frac{\pi_\theta(r^{-} \mid I)}{\pi_{\text{ref}}(r^{-} \mid I)} \right) \right]\]

데이터만 PIKA로 바꿨을 뿐, 학습 알고리즘(SFT, DPO)은 표준 그대로라는 점이 중요하다. 성능 향상의 출처가 알고리즘 트릭이 아니라 순수하게 데이터 품질임을 분리해서 보여주려는 설계다.

Experiments

핵심 결과: 30K가 10M을 이긴다

가장 강력한 결과부터 보자. PIKA-SFT(30K)로 학습한 Llama-3-8B-Base와, 1000만 건 넘는 독점 데이터로 학습된 공식 Llama-3-8B-Instruct의 직접 비교다.

모델	AlpacaEval 2.0 (LC)	Arena-Hard (WR)
공식 Llama-3-8B-Instruct (10M+ 데이터)	50.0%	24.5%
PIKA-SFT Llama-3-8B (30K 데이터)	52.42%	33.5%

데이터를 300배 이상 줄이고도 두 벤치마크 모두에서 앞선다. 특히 어려운 질문 위주인 Arena-Hard에서 24.5% → 33.5%로 격차가 크게 벌어진다. “어려운 데이터로 학습한 모델이 어려운 평가에서 강하다”는, 어찌 보면 당연하지만 실증하기 어려웠던 명제를 보여준다.

Magpie-Pro와의 동급 비교

규모가 다른 비교는 불공평하다는 반론이 있을 수 있다. 그래서 같은 합성 계열인 Magpie-Pro(300K)와도 비교한다. 둘 다 GPT 계열로 합성한 데이터지만, PIKA는 난이도에 집중했다는 차이만 있다.

데이터셋 (SFT)	AlpacaEval 2.0 (LC)	AlpacaEval 2.0 (WR)	Arena-Hard (WR)
Magpie-Pro (300K)	24.06%	28.60%	23.9%
PIKA (30K)	32.82%	30.56%	33.5%

10배 작은 데이터로 모든 지표에서 앞선다. 양이 아니라 난이도라는 PIKA의 명제가 같은 합성 패러다임 안에서 입증된다.

Preference(DPO)까지: 정렬 데이터 전체에서 우위

SFT뿐 아니라 preference 단계에서도 같은 우위가 이어진다. PIKA preference 데이터로 DPO를 돌린 결과를, Magpie-Pro·UltraFeedback 기반 DPO와 비교한다.

Preference 데이터 (DPO)	AlpacaEval 2.0 (WR)	Arena-Hard (WR)
UltraFeedback	18.40%	25.30%
Magpie-Pro	36.24%	33.30%
PIKA	41.29%	43.70%

위 그림은 데이터 규모를 10K에서 30K까지 늘리며 PIKA와 Magpie-Pro를 비교한 것이다. 모든 규모 구간에서 PIKA가 일관되게 위에 있고, 성능 곡선도 더 가파르게 좋아진다. 즉 “운 좋게 30K 지점에서만 이긴 것”이 아니라, 어떤 예산을 잡아도 난이도 집중이 이긴다는 뜻이다.

Qwen2.5로의 일반화

Llama에서만 통하는 우연일까? PIKA는 Qwen2.5(0.5B~7B) 전 규모에서 같은 실험을 반복한다. 결과는, PIKA-30K로 학습한 모델이 각 규모의 공식 instruction-tuned 버전을 win rate에서 모두 상회한다는 것이다.

Qwen2.5 규모	PIKA vs 공식 (AlpacaEval WR)
0.5B	55.65%
1.5B	74.35%
3B	66.97%
7B	60.23%

(표의 수치는 “공식 모델과 맞붙었을 때 PIKA 학습 모델이 이긴 비율”이다. 모두 50%를 넘으므로 전 규모에서 우위다.) 작은 모델일수록 효과가 큰 경향도 보인다 — 데이터 예산이 빠듯한 소형 모델일수록, 무엇을 학습시키느냐가 더 결정적이라는 직관과 맞는다.

Conclusion

핵심 메시지

정렬 데이터의 통화는 양이 아니라 난이도다. 어려운 지시문 30K가, 쉬운 지시문 1000만을 이긴다. persona로 난이도를 끌어올리고 필터로 안전·실현성을 지키는 단순한 레시피로 충분했다.
알고리즘이 아니라 데이터가 출처다. SFT·DPO는 표준 그대로 두고 데이터만 바꿨다. 향상의 원인을 데이터 품질로 깔끔히 분리해 보였다.
재현되는 일반화. Llama-3-8B, Qwen2.5 0.5B~7B에서 모두 같은 경향. 특정 모델의 우연이 아니다.

방법론 요약

단계	한 줄 요약	핵심 도구
Step 1	persona로 어려운 지시문 생성	GPT-4o + PersonaHub
Step 2	난이도·안전·실현성 자동 필터	GPT-4o 평가 (\(Q(I)=1\))
Step 3	multi-path 응답 → 보상 모델로 chosen/rejected 선택	Skywork-Reward-V2

안전(red-teaming) 관점에서의 의미

이 데이터셋은 공격 도구가 아니다. 그럼에도 RT 시리즈에 들어오는 이유는, 방어의 근간인 정렬이 데이터 품질·난이도에 강하게 좌우된다는 점을 정량적으로 못 박기 때문이다. 함의를 안전 관점에서 정리하면.

방어의 천장은 데이터의 천장이다. Constitutional AI가 “정렬 기준을 어떻게 명시할까”를 다뤘다면, PIKA는 “정렬 신호를 어떤 데이터로 채울까”를 다룬다. 둘은 보완적이다 — 좋은 헌법(기준)도 빈약한 데이터 위에서는 약하다.
어려운 prompt 분포의 중요성. 안전 정렬에서도 흔한 함정은 “쉬운 거절 사례만 잔뜩 학습”하는 것이다. PIKA의 교훈을 안전에 옮기면, 모델의 한계를 밀어붙이는 어려운 안전 시나리오를 데이터에 충분히 담아야 robust한 방어가 된다는 뜻이 된다.
양날의 검. 적은 고품질 데이터로 강한 모델을 만드는 레시피는, 정렬을 싸게 만드는 동시에 위험한 모델도 싸게 만들 수 있음을 시사한다. 난이도 필터에서 safety 게이트를 빼면 곧장 위험한 합성 파이프라인이 된다는 점은 경계할 부분이다.

한계점

생성기 의존: 전 과정이 GPT-4o에 기댄다. 합성 데이터의 천장이 사실상 생성기 모델의 천장에 묶일 수 있다(distillation의 한계).
난이도 평가의 주관성: 난이도 점수도 GPT-4o가 매긴다. “어렵다”는 판정 자체가 한 모델의 편향을 탈 수 있다.
벤치마크 편향: AlpacaEval·Arena-Hard는 LLM-judge 기반이라, 어렵고 장황한 답을 선호하는 경향과 PIKA의 스타일이 맞물려 점수가 부풀 가능성을 완전히 배제하기 어렵다.
안전성 정밀 평가 부재: 데이터에 safety 필터는 있으나, 학습된 모델의 jailbreak 견고성을 HarmBench·JailbreakBench 같은 표준으로 직접 측정한 결과는 이 논문의 초점 밖이다. 정렬 품질과 공격 견고성의 연결은 후속 과제로 남는다.

Red-Teaming 시리즈

이 글은 LLM Red-Teaming 시리즈의 스물한 번째 글이다.

Perez 2022 — LM으로 LM을 공격하기 (foundation)
Ganguli 2022 — Anthropic의 38K 공격 데이터셋과 scaling behavior
GCG (Zou 2023) — 그래디언트 기반 universal suffix
AutoDAN (Liu 2023) — 자연어 유지하는 GA 기반 jailbreak
AttnGCG — attention manipulation으로 GCG 강화 (추후 작성)
PAIR (Chao 2023) — 20쿼리 black-box attacker LM
TAP (Mehrotra 2023) — 트리 탐색 + 이중 pruning으로 PAIR 효율화
GPTFuzz (Yu 2023) — AFL 영감의 template-level fuzzing
Crescendo (Russinovich 2024) — multi-turn escalation으로 single-turn 방어 무력화
Many-shot Jailbreaking (Anil 2024) — long-context를 ICL로 weaponize
Curiosity-driven RT (Hong 2024) — novelty reward로 mode collapse 해결
Auto-RT (Liu 2025) — strategy-level RL exploration + progressive curriculum
AgenticRed (Yuan 2026) — RT 시스템 자체를 진화
InjecAgent (Zhan 2024) — Tool-use LLM agent에 대한 IPI 벤치마크
AgentVigil (Wang 2025) — MCTS 기반 IPI 자동 공격
AdvBench (Zou 2023) — GCG 논문의 harmful behaviors/strings 표준 벤치마크
HH-RLHF red-team (Ganguli 2022) — Anthropic 38K red-team 대화 데이터셋
HarmfulQA (Bhardwaj 2023) — Chain-of-Utterances 기반 유해 QA + RED-INSTRUCT
BeaverTails (Ji 2023) — helpfulness/harmlessness 분리 라벨 QA 데이터셋
WildJailbreak (Jiang 2024) — 대규모 합성 vanilla/adversarial 학습 데이터
(현재 글) PIKA (2025) — 난이도 집중 expert-level 합성 정렬 데이터셋
ALMA (Yasunaga 2024) — 최소 주석으로 합성 데이터 기반 정렬
HarmBench (Mazeika 2024) — 510 행동 × 18 공격 × 33 모델 표준 + R2D2 방어
JailbreakBench (Chao 2024) — 100 misuse + 100 benign + jailbreak artifacts repository
Constitutional AI (Bai 2022) — AI feedback으로 인간 라벨 없이 alignment
Llama Guard (Inan 2023) — open-weight input/output safety classifier 본 시리즈는 26편으로 구성된다 (#5 AttnGCG는 추후 작성).

참고 문헌

Yin et al., 2025. PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch. arXiv:2510.06670.
PIKA 코드/데이터: github.com/SJY8460/PiKa.
Xu et al., 2024. Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing. (비교 대상 합성 데이터셋)
Cui et al., 2023. UltraFeedback: Boosting Language Models with High-quality Feedback. (preference 데이터 baseline)
Ge et al., 2024. Scaling Synthetic Data Creation with 1,000,000,000 Personas (PersonaHub). (persona 소스)
Rafailov et al., 2023. Direct Preference Optimization (DPO). (선호 최적화 알고리즘)
관련 글: Constitutional AI, ALMA, HarmBench, JailbreakBench.

PIKA: 난이도에 집중한 expert-level 합성 정렬 데이터셋