BHHXX's Blog

注：本篇文章仅从一个初学者的角度结合 AI 的偏综述类文章

简单来说，大语言模型是基于深度学习技术，通过“阅读”海量文本数据（如书籍、网页、代码）训练出来的人工智能系统。它有三个显著的特点：

海量阅读： 它阅读的资料量大到人类几辈子都读不完，因此它拥有涵盖各个领域的广泛知识。
寻找规律： 它不是死记硬背，而是学习了语言背后的概率和模式。比如看到“床前明月”，它根据统计规律知道后面大概率接的是“光”。
参数巨大： 它的“大脑”由数十亿甚至数万亿个参数（类似神经连接）组成。当参数量达到一定规模时，模型不仅能流利说话，还涌现出了逻辑推理、写代码甚至解决复杂问题的能力。

1. 核心原理

要理解大语言模型是如何工作的，我们可以把它的核心原理拆解为三个关键步骤。我们先从第一步开始：它是如何“理解”文字的？

1.1 第一步：把文字变成向量（向量化 / Embedding）

大模型其实根本不认识汉字或英文单词。对它来说，一切都是数字向量。在训练之前，我们需要把人类的语言翻译成机器能懂的“坐标”。这个过程叫做 Embedding（嵌入）。

词汇地图： 想象一个巨大的多维空间（类似一张超级复杂的地图）。每一个词（比如“苹果”、“跑步”、“快乐”）都是地图上的一个点。
距离代表关系： 在这个地图上，意思相近的词，距离会很近；意思无关的词，距离会很远。

通过这种方式，电脑虽然不懂“猫”是什么生物，但它通过数学坐标知道，“猫”和“狗”的距离很近，而“猫”和“汽车”的距离很远。

你已经掌握了第一步（把词变成坐标）。接下来我们看最核心的第二步。

1.2 第二步：它是如何把词串起来理解句子的？（Transformer 与自注意力）

光知道每个词的意思还不够，大模型必须理解词与词之间的复杂关系。这就需要归功于著名的 Transformer 架构。

目前你常用的聊天大模型（比如 GPT 系列），其底层核心依赖于一种叫做**自注意力机制（Self-Attention）**的超能力。

聚光灯效应： 当模型读到一个词时，它不会只盯着这个词看，而是会像聚光灯一样，同时“照亮”句子里的其他词，看看谁跟当前这个词关系最紧密。
消除歧义： 这能帮助模型根据上下文确定词的确切含义。

举个中文的例子，“面” 这个字既可以是“脸面”，也可以是“面条”。请看这句话：

“这家店的面很有劲道。”

为了让模型知道这里的“面”指的是食物而不是脸，“店”提供了场景（通常指饭店），而“劲道”提供了属性（形容食物口感）。

在大模型的眼里，这就是“自注意力机制”在起作用：当它读到“面”时，它会给“劲道”和“店”分配很高的权重（Weight）。这就像把这两个词的含义加到了“面”身上，把它的坐标强行拉向了“食物”的区域，而不是“脸部”的区域。

注：在 Transformer 最早被发明出来用于“机器翻译”时，除了“自注意力”，还有一种连接两种不同语言的“交叉注意力（Cross-Attention）”。但现在的文本大模型为了追求极致的效率，做了一个“大减法”——它们大多采用“仅解码器”（Decoder-only）架构，把提问和回答拼成一个单一序列，几乎全程只用“自注意力”来进行内部消化。事实证明，在大数据和巨量参数的加持下，这种极简架构反而效果更好！

现在模型理解了意思，我们来到了核心原理的最后一步：它是怎么“说话”的？

1.3 第三步：概率接龙（Next Token Prediction）

大模型写文章并不是像人类一样先打腹稿，而是像挤牙膏一样，一个单位、一个单位猜出来的。在 AI 的世界里，这个基本单位被称为 Token（词元，它可能是一个汉字，也可能是一个词组）。它会不断计算：“根据前面的所有内容，下一个出现概率最高的 Token 是什么？”

我们来做一个简单的实验，体验一下这种“概率计算”。如果给你半句话：“这只小猫非常可爱，我很想摸摸它的___”

根据你的直觉，你觉得横线处概率最大的 Token 是什么？“头”绝对是一个概率非常高的选项。当然，除了“头”，可能的 Token 还有“毛”、“耳朵”或者“肚子”。在大模型的“大脑”里，它会瞬间计算出所有可能的词或字出现的概率，这就是“概率分布”。

它的计算过程可能是这样的（仅作示意）：

头： 35%
毛： 30%
耳朵： 15%
……
电脑： 0.0001% （这个概率极低，因为它完全不符合上下文逻辑）

模型通常会选择概率最高的那个 Token（或者在几个高概率选项中随机选一个，让回答更丰富不死板）。一旦选定“头”，它就会把“头”加到句子的末尾，然后拿着新的长句子，继续去猜下一个 Token，直至预测到代表结束的特殊字符。

这就是大模型“说话”的本质：就像接龙游戏一样，通过无数次简单的“猜下一个 Token”，最终连词成句，连句成篇。