主流模型架构及新型架构-DataWhale大语言模型05

在预训练语言模型时代，自然语言处理领域广泛采用了预训练 + 微调的范式，并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。本篇笔记将主要介绍解码器架构及长上下文模型。

Transformer 架构及配置-DataWhale大语言模型04

原始的 Transformer 模型由编码器和解码器两个部分构成，而这两个部分实际上可以独立使用，例如基于编码器架构的BERT模型和解码器架构的GPT模型。与 BERT 等早期的预训练语言模型相比，大语言模型的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数，并主要使用解码器架构，对于 Transformer 本身的结构与配置改变并不大。

GPT、DeepSeek 模型介绍-DataWhale大语言模型03

上一篇笔记中我们介绍了大模型的技术基础，预训练与指令微调、扩展法则和涌现能力。这一篇就该到介绍大语言模型中处于浪潮之巅的 GPT、DeepSeek 模型了。

大模型技术基础-DataWhale大语言模型02

上一篇笔记介绍了语言模型发展历史。大语言模型，还真就是字面上理解，“大”的语言模型-参数到达一定规模后量变引起质变的语言模型。本篇笔记会从大语言模型的参数规模和构建方式切入，介绍大模型的技术基础。

语言模型发展历程-DataWhale大语言模型01

2022 年底，ChatGPT 上线。2025年，DeepSeek-R1 进入公众视野。这些产品背后的大语言模型（Large Language Model,LMM）技术并非一蹴而就。

BLESS