BLESS

如果图片挂了可能是图床服务器在升级

主流模型架构及新型架构-DataWhale大语言模型05

在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。本篇笔记将主要介绍解码器架构及长上下文模型。

Transformer 架构及配置-DataWhale大语言模型04

原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的BERT模型和解码器架构的GPT模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。

大模型技术基础-DataWhale大语言模型02

上一篇笔记介绍了语言模型发展历史。大语言模型,还真就是字面上理解,“大”的语言模型-参数到达一定规模后量变引起质变的语言模型。本篇笔记会从大语言模型的参数规模和构建方式切入,介绍大模型的技术基础。

BLESS

切换主题 | SCHEME TOOL