目前推理框架基本上都需要用到多轮对话的场景,自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来,会极大地降低首Token的耗时。 目前使用最多的就是两个技术方案,一个是SGLang推出的RadixAttention的Prefix Cache,另一
单机八卡,我们按照PP + TP的方式来进行方案说明,使用的是vllm框架,主要命令和函数如下: python single_node_multi_gpu_demo.py --mode pipeline_parallel --tensor-parallel 4 --pipeline-parallel
一个client建立之后就会建立一个core engine,这些配置会通过QMZ IPC发送给core engine。 Core engine Architecture Worker and Executor MultiprocExecutor 在MultiprocExecutor类中,可以清晰的找
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo