Manuel Ernesto ⚡️
Blog - 推理加速
LLM推理加速 Lesson 1:Roofline模型
描述算力和带宽对模型速度的影响,一切的基础。
大语言模型
推理加速
LLM推理加速 Lesson2:FlashAttention
从I/O视角优化Transformer的基础模块Attention。
大语言模型
推理加速
LLM推理加速 Lesson3:FlashInfer
从I/O视角优化Transformer的基础模块Attention。
大语言模型
推理加速