主流模型架构及新型架构-DataWhale大语言模型05 语言模型 在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。本篇笔记将主要介绍解码器架构及长上下文模型。
Transformer 架构及配置-DataWhale大语言模型04 语言模型 原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的BERT模型和解码器架构的GPT模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。
GPT、DeepSeek 模型介绍-DataWhale大语言模型03 语言模型 上一篇笔记中我们介绍了大模型的技术基础,预训练与指令微调、扩展法则和涌现能力。这一篇就该到介绍大语言模型中处于浪潮之巅的 GPT、DeepSeek 模型了。
大模型技术基础-DataWhale大语言模型02 语言模型 上一篇笔记介绍了语言模型发展历史。大语言模型,还真就是字面上理解,“大”的语言模型-参数到达一定规模后量变引起质变的语言模型。本篇笔记会从大语言模型的参数规模和构建方式切入,介绍大模型的技术基础。
语言模型发展历程-DataWhale大语言模型01 语言模型 2022 年底,ChatGPT 上线。2025年,DeepSeek-R1 进入公众视野。这些产品背后的大语言模型(Large Language Model,LMM) 技术并非一蹴而就。