关于 deepseek attention 的一些数学计算
一个 GPT-2 风格 Transformer 架构
观察 Attention 的数据流动
什么是 LLM 推理
从初学者角度了解什么是大语言模型