-
Triton 03: RMSNorm — LLM에서 쓰이는 실전 커널
LLaMA, Mistral, Gemma 등 최신 LLM에서 사용하는 RMSNorm을 Triton으로 구현합니다.
-
Triton 02: Fused Softmax — 커널 퓨전과 Reduction
Softmax를 하나의 커널로 퓨전하여 메모리 접근을 최소화하는 방법을 학습합니다.
-
Triton 01: Vector Addition — Triton 커널 기초
가장 간단한 GPU 커널인 벡터 덧셈을 Triton으로 구현하며 핵심 개념을 학습합니다.
-
Triton 00: GPU 기초 — Triton을 시작하기 전에 알아야 할 것들
GPU 아키텍처, 메모리 계층, SM 구조, 텐서 코어, Roofline Model 등 GPU 프로그래밍의 기초 개념을 정리합니다.
-
LoRA vs Full Fine-tuning: An Illusion of Equivalence
LoRA vs Full Fine-tuning 논문 리뷰 — Intruder Dimensions과 Spectral 분석을 통한 차이점 분석