ROCm 入门 首先就是amd官方的命名跟nv的区别,其实区别并不大,只是AMD在cuda的基础上做了更多的优化,比如说一个wavefront有64个work-item,相当于一个warp有64个threads。其次就是有两种register,在
比赛提供的link: 魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard
ACM
算法
算法竞赛
vllm
AMD算子挑战赛
github
inference
LLM
CUDA入门到入土
cuda/Triton
MLsys24
paper
blog
默认分类