-
FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
FlashAttention-3 논문 리뷰 — Hopper GPU의 비동기 실행과 FP8을 활용한 Attention 최적화
-
Triton 05: Flash Attention — 종합 프로젝트
지금까지 배운 모든 기법을 종합하여 Flash Attention을 Triton으로 구현합니다.
-
Triton 04: Matrix Multiplication — 2D 타일링과 Autotune
딥러닝의 핵심 연산인 행렬 곱셈을 Triton으로 구현하며 2D 타일링, tl.dot, autotune을 학습합니다.
-
Triton 03: RMSNorm — LLM에서 쓰이는 실전 커널
LLaMA, Mistral, Gemma 등 최신 LLM에서 사용하는 RMSNorm을 Triton으로 구현합니다.
-
Triton 02: Fused Softmax — 커널 퓨전과 Reduction
Softmax를 하나의 커널로 퓨전하여 메모리 접근을 최소화하는 방법을 학습합니다.