PD分离 —— Prefix Cache和Chunk Prefills

目前推理框架基本上都需要用到多轮对话的场景，自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来，会极大地降低首Token的耗时。

目前使用最多的就是两个技术方案，一个是SGLang推出的RadixAttention的Prefix Cache，另一个是vllm原生的Chunk Prefills。当然vllm也兼容了Prefix Cache，这两个技术只能用一个，vllm默认是Chunk Prefills，可以通过加入参数--enable-prefix-caching来开启，这里不谈TensorRT-LLM是因为其不完全开源。

福生无量摸鱼天尊

PD分离 —— Prefix Cache和Chunk Prefills