从 MHA、GQA 到 MLA、DSA、HCA/CSA:DeepSeek 文本大模型 Attention 架构演进
·
关于 deepseek attention 的一些数学计算
欢迎来到我的个人博客
关于 deepseek attention 的一些数学计算
理解 vLLM 如何通过分页管理 KV cache
从 IO-aware 角度理解 FlashAttention-1 的核心思路
拆解 Agent = Harness + Model 背后的系统设计
KV cache 怎么来的
一个 GPT-2 风格 Transformer 架构
观察 Attention 的数据流动
什么是 LLM 推理
本人从事 GPU 性能分析工具开发工作,希望系统性学习一些原理,而不是浮于表面,故搜寻如下资料
深入浅出解析 GPU 显存的硬件架构与软件逻辑
2026 年的规划
个人认为程序员不应该弄混的概念
从初学者角度了解什么是大语言模型
了解流式多处理器的架构
GPU 是如何执行的
LLM Agent 基础架构
CUDA 究竟是什么?
决定开始写博客,不弃坑