你好，我是 BHHXX

欢迎来到我的个人博客

从 MHA、GQA 到 MLA、DSA、HCA/CSA：DeepSeek 文本大模型 Attention 架构演进

2026/4/26·

关于 deepseek attention 的一些数学计算

vLLM 的 PagedAttention：KV cache 为什么要分页

2026/4/17·

理解 vLLM 如何通过分页管理 KV cache

深入理解 FlashAttention：分块、算子融合与重计算的艺术

2026/4/16·

从 IO-aware 角度理解 FlashAttention-1 的核心思路

Harness Engineering：把模型变成 agent 的那层系统

2026/4/10·

拆解 Agent = Harness + Model 背后的系统设计

KV cache

2026/3/30·

KV cache 怎么来的

一个 GPT-2 风格 Transformer 架构

2026/3/29·

一个 GPT-2 风格 Transformer 架构

我终于看懂了 Attention 是怎么计算的

2026/3/27·

观察 Attention 的数据流动

什么是 LLM 推理

2026/3/16·

什么是 LLM 推理

GPU 性能分析工具开发参考资料

2026/3/13·

本人从事 GPU 性能分析工具开发工作，希望系统性学习一些原理，而不是浮于表面，故搜寻如下资料

什么是 GPU 显存

2026/3/7·

深入浅出解析 GPU 显存的硬件架构与软件逻辑

2026 年度计划

2026/3/4·

2026 年的规划

程序员不应该混淆的知识

2026/3/2·

个人认为程序员不应该弄混的概念

什么是大语言模型

2026/3/2·

从初学者角度了解什么是大语言模型

什么是流式多处理器

2026/3/1·

了解流式多处理器的架构

GPU 是如何执行的

2026/2/21·

GPU 是如何执行的

OpenClaw 爆火：Agent 只是提示词工程 + 字符串匹配吗？

2026/2/4·

LLM Agent 基础架构

什么是 CUDA

2026/1/30·

CUDA 究竟是什么？

bhhxx 的博客

2026/1/29·

决定开始写博客，不弃坑