-
TRL sequence packing → DeepSeek MLA: 누락된 cu_seqlens 복원
TRL packing 을 켜자 loss 가 2.57 → 5.70 으로 망가졌다. DeepSeek-V3 modeling 의 padding_free 경로가 doc 경계를 잃어버리는 지점을 추적하고, position_ids 의 0-reset 패턴으로 cu_seqlens 를 복원해 학습 정합성 + 4.65× 추가 가속을 회복한 과정
-
MLA 학습 시 modeling-side projection fusion: q_a/kv_a 배치 + K-side absorption
DeepSeek 의 Multi-Latent Attention 이 학습 forward 에서 남기는 직렬 GEMM chain 을 어떻게 정리할 수 있는지 — 두 개의 안전한 변환과 한 개의 trade-off
-
DeepSeek 계열 MoE 학습 가속: Python expert loop → grouped GEMM
DeepSeek-V3 공개 modeling 의 expert for-loop 가 왜 학습 병목이 되는지, grouped GEMM 으로 fuse 해 단일 GPU 마이크로벤치 6.69×, end-to-end FSDP 학습 6.27× 가속한 과정
-
CodeAttack: Code-based Adversarial Attacks for Pre-trained Programming Language Models
CodeAttack 논문 리뷰 — 코드의 자연 채널을 노려 PL 모델을 무력화하는 블랙박스 적대 공격
-
Jailbreaking Black Box Large Language Models in Twenty Queries
Red-Teaming 시리즈 #6 — LLM으로 LLM을 공격하는 자동 반복 정제 jailbreak 알고리즘, 20쿼리 (Chao et al., UPenn, 2023)