福生无量摸鱼天尊

浮生无量摸鱼天尊

inference

7 篇文章

2025-09-07

inference

摸鱼天尊

2025/09/29

PD分离 —— Prefix Cache和Chunk Prefills

目前推理框架基本上都需要用到多轮对话的场景，自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来，会极大地降低首Token的耗时。目前使用最多的就是两个技术方案，一个是SGLang推出的RadixAttention的Prefix Cache，另一

23

0

0
inference

摸鱼天尊

2025/09/26

vllm v1 源码解析 —— 单机八卡推理

单机八卡，我们按照PP + TP的方式来进行方案说明，使用的是vllm框架，主要命令和函数如下： python single_node_multi_gpu_demo.py --mode pipeline_parallel --tensor-parallel 4 --pipeline-parallel

72

0

0
inference

摸鱼天尊

2025/09/23

vllm v1 源码解析 —— Core

一个client建立之后就会建立一个core engine，这些配置会通过QMZ IPC发送给core engine。 Core engine Architecture Worker and Executor MultiprocExecutor 在MultiprocExecutor类中，可以清晰的找

12

0

0
inference

摸鱼天尊

2025/09/22

算子进阶 —— 通信算子

随着LLM业务的不断发展，我们发现单机单卡无法承载一个模型的训练和推理，故此出现了单机多卡和多机多卡的训练推理算子，这时候每个机和卡之间都需要通信，所以通信算子十分的重要。分布式并行下面是传统的四种并行处理架构，常用于大模型训练。 DP

22

0

0
inference

摸鱼天尊

2025/09/19

算子进阶 —— 通算融合

（施工ing）概述我们知道，算子的作用是计算，那在整个体系中，我们的核心目标是拉满GPU的利用率。在现代分布式体系中，多GPU之间同时存在着计算、内存访问和通信这三种基本活动，为了服务于我们的核心目标，我们需要尽可能的将通信时间和访存时间放在计算时间内，使得GPU不存在运算时间的泡泡。大模型

17

0

0
inference

摸鱼天尊

2025/09/11

AI编译器 —— 笔记

challenge 新模型新module出现，需要对应算子进行计算，还需要结合硬件进行特性优化和测试，尽量充分发挥硬件性能硬件厂商还会发布新技术的加速计算库专用加速芯片爆发导致性能可移植性成为一种刚需不同厂商的ISA不尽相同一般缺乏如GCC、LLVM等编译工具链，使得针对CPU和GPU已有

14

0

0
inference

摸鱼天尊

2025/08/27

【LLM 必读综述】Speed Always Wins：LLM高效架构调查

题目：Speed Always Wins: A Survey on Efficient Architectures for Large Language Models 作者：孙伟高上海人工智能实验室 github：https://github.com/weigao266/Awesome-Effic

56

0

0

ACM
1 篇文章



算法
1 篇文章



算法竞赛
1 篇文章



vllm
2 篇文章



AMD算子挑战赛
2 篇文章



github
1 篇文章



inference
7 篇文章



LLM
10 篇文章



CUDA入门到入土
6 篇文章



cuda/Triton
11 篇文章



MLsys24
1 篇文章



paper
2 篇文章



blog
1 篇文章



默认分类
1 篇文章