归档

2026

vLLM 的 PagedAttention：KV cache 为什么要分页

深入理解 FlashAttention：分块、算子融合与重计算的艺术

Harness Engineering：把模型变成 agent 的那层系统

ggml_tensor 结构体阅读笔记

大模型预训练

一个 GPT-2 风格 Transformer 架构

我终于看懂了 Attention 是怎么计算的

什么是 LLM 推理

GPU 性能分析工具开发参考资料

什么是 GPU 显存

2026 年度计划

程序员不应该混淆的知识

什么是大语言模型

什么是流式多处理器

GPU 是如何执行的

Tensor 类“实现计划”

OpenClaw 爆火：Agent 只是提示词工程 + 字符串匹配吗？

bhhxx 的博客