题目:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models 作者:孙伟高 上海人工智能实验室 github:https://github.com/weigao266/Awesome-Effic
做这期blog的动机很简单,分享一下自己如何快速的上手某个领域的论文。 快速了解垂类领域的SOTA论文 首先,wispaper 直接搜索最需要的议题,找到20篇文章。
LLM 推理与服务优化 (LLM Inference and Serving Optimization) KV 缓存管理和优化 (KV Cache Management and Optimization) 这些论文聚焦于 KV 缓存的减少、量化或重用,以提升生成推理效率和降低内存消耗。
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo