Transformer 架构及配置-DataWhale大语言模型04
原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的BERT模型和解码器架构的GPT模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。
原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的BERT模型和解码器架构的GPT模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。
上一篇笔记中我们介绍了大模型的技术基础,预训练与指令微调、扩展法则和涌现能力。这一篇就该到介绍大语言模型中处于浪潮之巅的 GPT、DeepSeek 模型了。
上一篇笔记介绍了语言模型发展历史。大语言模型,还真就是字面上理解,“大”的语言模型-参数到达一定规模后量变引起质变的语言模型。本篇笔记会从大语言模型的参数规模和构建方式切入,介绍大模型的技术基础。
2022 年底,ChatGPT 上线。2025年,DeepSeek-R1 进入公众视野。这些产品背后的大语言模型(Large Language Model,LMM) 技术并非一蹴而就。