-
Triton 07: Flash Attention 3 — Triton으로 어디까지 가능한가
Hopper 전용인 Flash Attention 3를 Triton으로 어디까지 따라잡을 수 있는가 — 확장 autotune·persistent kernel·실패한 실험까지
-
Triton 06: Flash Attention 2 — FA1 대비 5가지 최적화
Flash Attention 2를 Triton으로 구현한다 — un-scaled 누적, exp2 트릭, Causal 2-stage, tl.dot accumulator, autotune
-
Triton 05: Flash Attention — 종합 프로젝트
Flash Attention을 Triton으로 구현한다 — Forward/Backward 전체 구현과 RTX 4080·A100·H100·B200 아키텍처별 최적화 포인트
-
Triton 04: Matrix Multiplication — 2D 타일링과 Autotune
딥러닝의 핵심 연산인 행렬 곱셈을 Triton으로 구현하며 2D 타일링, tl.dot, autotune을 학습합니다.
-
Triton 03: RMSNorm — LLM에서 쓰이는 실전 커널
LLaMA, Mistral, Gemma 등 최신 LLM에서 사용하는 RMSNorm을 Triton으로 구현합니다.