cuda/Triton - 福生无量摸鱼天尊

cuda/Triton

摸鱼天尊

2025/10/20

CUDA profile 大全 —— nsight computer & nsys & pytorch

Cuda API 创建对象： #include <cuda_runtime.h> #include <cuda.h> #include <iostream> #include <string> // 获取当前机器的GPU数量 cudaError_t error_id = cudaGetDevice

41

0

0
cuda/Triton

摸鱼天尊

2025/09/22

算子进阶 —— 通信算子

随着LLM业务的不断发展，我们发现单机单卡无法承载一个模型的训练和推理，故此出现了单机多卡和多机多卡的训练推理算子，这时候每个机和卡之间都需要通信，所以通信算子十分的重要。分布式并行下面是传统的四种并行处理架构，常用于大模型训练。 DP

76

0

0
cuda/Triton

摸鱼天尊

2025/09/19

算子进阶 —— 通算融合

（施工ing）概述我们知道，算子的作用是计算，那在整个体系中，我们的核心目标是拉满GPU的利用率。在现代分布式体系中，多GPU之间同时存在着计算、内存访问和通信这三种基本活动，为了服务于我们的核心目标，我们需要尽可能的将通信时间和访存时间放在计算时间内，使得GPU不存在运算时间的泡泡。大模型

104

0

0
cuda/Triton

摸鱼天尊

2025/09/18

Triton is all you need —— Triton 源码、编译和调试

（施工ing）

30

0

0
cuda/Triton

摸鱼天尊

2025/09/07

triton is all you need 之 GEMM

代码参考了傅哥，请b站关注我是傅傅猪喵，谢谢喵！ Triton DSL是以BLOCK tile为中心的Python DSL。与CUDA相比，Triton的使用者无法控制所有细节，因为某些优化是自动完成的，但是在Triton编译器的逐层编译优化之下也可以获得与Cuda相近甚至超过的性能。另外，Trit

47

0

0
cuda/Triton

摸鱼天尊

2025/09/03

【CUDA从入门到入土】四、矩阵乘法

矩阵乘法跟之前不同，之前一维可以直接写一个kernel，或者多个kernel线性的排布来并行计算，那么矩阵乘法就是由一维向二维转变的关键。这时候一维的kernel排布也变成了二维排布。这里最关键的点是在于threadIdx和dataIdx的映射，从原来单一的tid变成了二维的tidx和tidy。

41

0

0
cuda/Triton

摸鱼天尊

2025/08/23

【CUDA从入门到入土】三、reduce算子及其优化

该项目代码参考傅哥的课程，很有用的课程，请多多支持他。 reduce 规约求和是cuda中一个经典的问题，其本质是将输入的序列进行求和。在CUDA的多线程中，我们清楚数据被分为一个一个的block中进行运行，每个block通过warp来并发32个线程进行运算。所以将数据分割成一个一个block进

293

0

2
cuda/Triton

摸鱼天尊

2025/08/18

【CUDA从入门到入土】二、CUDA调试和必知必会 & Nsight Computer 入门

上文中，我们运行了一个简单的cuda函数，并且一次过的将其运行了起来，这次，我们需要补充一些基础的概念，通过概念和框架的建立，我们才能走的更远，高屋建瓴的认识更多。 vscode的CUDA调试继续沿用上次的hello world代码，可能名字有点修改，问题不大，请务必看清楚文件名！新建一个res

1061

0

4
cuda/Triton

摸鱼天尊

2025/08/17

【CUDA从入门到入土】五、cuda_kernel_和_cuda_attention详解

从cuda kernel出发，看懂人生第一个cuda attention

37

0

0
cuda/Triton

摸鱼天尊

2025/08/15

【CUDA从入门到入土】一、丝滑的CUDA入门

CUDA是什么 cuda是一种gpu编程组件，是一种原生支持GPU软硬件的架构，使得开发者可以直接在 GPU 上编写和执行通用计算程序。 GPU架构上图是H100白皮书中，H100 GPU带满了144个SM的架构图

195

0

1

github项目解析
2 篇文章



vibe coding
3 篇文章



github源码解析
0 篇文章



基本操作
1 篇文章



agent
6 篇文章



code cli
1 篇文章



context engineering
2 篇文章



ACM
1 篇文章



算法
3 篇文章



算法竞赛
3 篇文章



vllm
2 篇文章



AMD算子挑战赛
2 篇文章



github
1 篇文章



inference
7 篇文章



LLM
10 篇文章



CUDA入门到入土
6 篇文章



cuda/Triton
11 篇文章



MLsys24
1 篇文章



paper
2 篇文章



blog
3 篇文章



默认分类
1 篇文章