0. 数模 最基础的抽象是:环境有状态s_{t},你能看到的是观测o_{t},你做动作a_{t},环境给反馈(比如奖励/成功信号)并转移到新状态。用 (PO)MDP 写就是: s_{t+1}\sim P(\cdot\mid s_t,a_t),\quad o_t\sim O(\cdot\mid s_t
agent
code cli
context engineering
ACM
算法
算法竞赛
vllm
AMD算子挑战赛
github
inference
LLM
CUDA入门到入土
cuda/Triton
MLsys24
paper
blog
默认分类