福生无量摸鱼天尊

浮生无量摸鱼天尊

vllm源码

3 篇文章

2025-09-26

vllm源码

摸鱼天尊

2025/09/29

PD分离 —— Prefix Cache和Chunk Prefills

目前推理框架基本上都需要用到多轮对话的场景，自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来，会极大地降低首Token的耗时。目前使用最多的就是两个技术方案，一个是SGLang推出的RadixAttention的Prefix Cache，另一

23

0

0
vllm源码

摸鱼天尊

2025/09/26

vllm v1 源码解析 —— 单机八卡推理

单机八卡，我们按照PP + TP的方式来进行方案说明，使用的是vllm框架，主要命令和函数如下： python single_node_multi_gpu_demo.py --mode pipeline_parallel --tensor-parallel 4 --pipeline-parallel

72

0

0
vllm源码

摸鱼天尊

2025/09/23

vllm v1 源码解析 —— Core

一个client建立之后就会建立一个core engine，这些配置会通过QMZ IPC发送给core engine。 Core engine Architecture Worker and Executor MultiprocExecutor 在MultiprocExecutor类中，可以清晰的找

12

0

0

基础篇
1 篇文章



算法
0 篇文章



CUDA优化
0 篇文章



ai 编译器
1 篇文章



算子进阶
3 篇文章



Python LLM 编译器
1 篇文章



Triton
1 篇文章



PD分离
1 篇文章



vllm源码
3 篇文章



AMD
2 篇文章



算子
6 篇文章



比赛
2 篇文章



八股
1 篇文章



github
1 篇文章



GPU
3 篇文章



ubuntu
1 篇文章



WSL2
1 篇文章



cuda/Triton
7 篇文章



MLsys24
1 篇文章



paper
3 篇文章



blog
1 篇文章



Halo
1 篇文章