什么是大语言模型

·

文章大纲

1. 核心原理

点击后可快速跳到对应章节

注:本篇文章仅从一个初学者的角度结合 AI 的偏综述类文章

简单来说,大语言模型是基于深度学习技术,通过“阅读”海量文本数据(如书籍、网页、代码)训练出来的人工智能系统。它有三个显著的特点:

  • 海量阅读: 它阅读的资料量大到人类几辈子都读不完,因此它拥有涵盖各个领域的广泛知识。
  • 寻找规律: 它不是死记硬背,而是学习了语言背后的概率和模式。比如看到“床前明月”,它根据统计规律知道后面大概率接的是“光”。
  • 参数巨大: 它的“大脑”由数十亿甚至数万亿个参数(类似神经连接)组成。当参数量达到一定规模时,模型不仅能流利说话,还涌现出了逻辑推理、写代码甚至解决复杂问题的能力。

1. 核心原理

要理解大语言模型是如何工作的,我们可以把它的核心原理拆解为三个关键步骤。我们先从第一步开始:它是如何“理解”文字的?

1.1 第一步:把文字变成向量(向量化 / Embedding)

大模型其实根本不认识汉字或英文单词。对它来说,一切都是数字向量。在训练之前,我们需要把人类的语言翻译成机器能懂的“坐标”。这个过程叫做 Embedding(嵌入)

  • 词汇地图: 想象一个巨大的多维空间(类似一张超级复杂的地图)。每一个词(比如“苹果”、“跑步”、“快乐”)都是地图上的一个点。
  • 距离代表关系: 在这个地图上,意思相近的词,距离会很近;意思无关的词,距离会很远。

通过这种方式,电脑虽然不懂“猫”是什么生物,但它通过数学坐标知道,“猫”和“狗”的距离很近,而“猫”和“汽车”的距离很远。

你已经掌握了第一步(把词变成坐标)。接下来我们看最核心的第二步。

1.2 第二步:它是如何把词串起来理解句子的?(Transformer 与自注意力)

光知道每个词的意思还不够,大模型必须理解词与词之间的复杂关系。这就需要归功于著名的 Transformer 架构

目前你常用的聊天大模型(比如 GPT 系列),其底层核心依赖于一种叫做**自注意力机制(Self-Attention)**的超能力。

  • 聚光灯效应: 当模型读到一个词时,它不会只盯着这个词看,而是会像聚光灯一样,同时“照亮”句子里的其他词,看看谁跟当前这个词关系最紧密。
  • 消除歧义: 这能帮助模型根据上下文确定词的确切含义。

举个中文的例子,“面” 这个字既可以是“脸面”,也可以是“面条”。请看这句话:

“这家店的面很有劲道。”

为了让模型知道这里的“面”指的是食物而不是脸,“店”提供了场景(通常指饭店),而“劲道”提供了属性(形容食物口感)。

在大模型的眼里,这就是“自注意力机制”在起作用:当它读到“面”时,它会给“劲道”和“店”分配很高的权重(Weight)。这就像把这两个词的含义加到了“面”身上,把它的坐标强行拉向了“食物”的区域,而不是“脸部”的区域。

注:在 Transformer 最早被发明出来用于“机器翻译”时,除了“自注意力”,还有一种连接两种不同语言的“交叉注意力(Cross-Attention)”。但现在的文本大模型为了追求极致的效率,做了一个“大减法”——它们大多采用“仅解码器”(Decoder-only)架构,把提问和回答拼成一个单一序列,几乎全程只用“自注意力”来进行内部消化。事实证明,在大数据和巨量参数的加持下,这种极简架构反而效果更好!

现在模型理解了意思,我们来到了核心原理的最后一步:它是怎么“说话”的?

1.3 第三步:概率接龙(Next Token Prediction)

大模型写文章并不是像人类一样先打腹稿,而是像挤牙膏一样,一个单位、一个单位猜出来的。在 AI 的世界里,这个基本单位被称为 Token(词元,它可能是一个汉字,也可能是一个词组)。它会不断计算:“根据前面的所有内容,下一个出现概率最高的 Token 是什么?”

我们来做一个简单的实验,体验一下这种“概率计算”。 如果给你半句话:“这只小猫非常可爱,我很想摸摸它的___”

根据你的直觉,你觉得横线处概率最大的 Token 是什么?“头”绝对是一个概率非常高的选项。 当然,除了“头”,可能的 Token 还有“毛”、“耳朵”或者“肚子”。在大模型的“大脑”里,它会瞬间计算出所有可能的词或字出现的概率,这就是“概率分布”。

它的计算过程可能是这样的(仅作示意):

  • 头: 35%
  • 毛: 30%
  • 耳朵: 15%
  • ……
  • 电脑: 0.0001% (这个概率极低,因为它完全不符合上下文逻辑)

模型通常会选择概率最高的那个 Token(或者在几个高概率选项中随机选一个,让回答更丰富不死板)。一旦选定“头”,它就会把“头”加到句子的末尾,然后拿着新的长句子,继续去猜下一个 Token,直至预测到代表结束的特殊字符。

这就是大模型“说话”的本质:就像接龙游戏一样,通过无数次简单的“猜下一个 Token”,最终连词成句,连句成篇。