归档
2026
vLLM 的 PagedAttention:KV cache 为什么要分页
2026/4/17
深入理解 FlashAttention:分块、算子融合与重计算的艺术
2026/4/16
Harness Engineering:把模型变成 agent 的那层系统
2026/4/10
ggml_tensor 结构体阅读笔记
2026/4/9
大模型预训练
2026/4/1
KV cache
2026/3/30
一个 GPT-2 风格 Transformer 架构
2026/3/29
我终于看懂了 Attention 是怎么计算的
2026/3/27
什么是 LLM 推理
2026/3/16
GPU 性能分析工具开发参考资料
2026/3/13
agent 笔记
2026/3/8
LLM Interview
2026/3/7
什么是 GPU 显存
2026/3/7
2026 年度计划
2026/3/4
程序员不应该混淆的知识
2026/3/2
什么是大语言模型
2026/3/2
什么是流式多处理器
2026/3/1
GPU 是如何执行的
2026/2/21
Tensor 类“实现计划”
2026/2/13
OpenClaw 爆火:Agent 只是提示词工程 + 字符串匹配吗?
2026/2/4
什么是 CUDA
2026/1/30
bhhxx 的博客
2026/1/29