-
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
Red-Teaming 시리즈 #2 — 38,961개 사람 공격 데이터셋과 RLHF 모델의 scaling behavior (Ganguli et al., Anthropic, 2022)
-
Red Teaming Language Models with Language Models
Red-Teaming 시리즈 #1 — LM으로 LM을 공격하는 첫 자동화 red-teaming 논문 (Perez et al., DeepMind, EMNLP 2022)
-
TRL sequence packing → DeepSeek MLA: 누락된 cu_seqlens 복원
TRL packing 을 켜자 loss 가 2.57 → 5.70 으로 망가졌다. DeepSeek-V3 modeling 의 padding_free 경로가 doc 경계를 잃어버리는 지점을 추적하고, position_ids 의 0-reset 패턴으로 cu_seqlens 를 복원해 학습 정합성 + 4.65× 추가 가속을 회복한 과정
-
MLA 학습 시 modeling-side projection fusion: q_a/kv_a 배치 + K-side absorption
DeepSeek 의 Multi-Latent Attention 이 학습 forward 에서 남기는 직렬 GEMM chain 을 어떻게 정리할 수 있는지 — 두 개의 안전한 변환과 한 개의 trade-off
-
DeepSeek 계열 MoE 학습 가속: Python expert loop → grouped GEMM
DeepSeek-V3 공개 modeling 의 expert for-loop 가 왜 학습 병목이 되는지, grouped GEMM 으로 fuse 해 단일 GPU 마이크로벤치 6.69×, end-to-end FSDP 학습 6.27× 가속한 과정