上一篇笔记中我们介绍了大模型的技术基础,预训练与指令微调、扩展法则和涌现能力。这一篇就该到介绍大语言模型中处于浪潮之巅的 GPT、DeepSeek 模型了。

GPT

GPT(Generative Pre-Training)

GPT 系列模型的基本原理是训练模型学习恢复预训练文本数据,将广泛的世界知识压缩到仅包含解码器(Decoder-Only) 的 Transformer 模型中,从而使模型能够学习获得较为全面的能力。其中,两个关键要素是:

  • 训练能够准确预测下一个词的 Transformer (只包含解码器)语言模型
  • 扩展语言模型的规模以及扩展预训练数据的规模。

关于 GPT 模型的官方资料,可以在 https://openai.com/research/index/ 获得

GPT-1

2017 年,Google 推出 Transformer 模型后,OpenAI 团队马上意识到这种神经网络架构将显著优于传统序列神经网络的性能,有可能对于研发大型神经网络产生重要的影响。他们很快着手使用 Transformer 架构研发语言模型,并于 2018 年发布了第一个 GPT 模型,即 GPT-1。

GPT-1 基于生成式、仅有解码器的 Transformer 架构开发,奠定了 GPT 系列模型的核心架构与基于自然语言文本的预训练方式,即预测下一个词元。由于当时模型的参数规模还相对较小,模型仍然缺乏通用的任务求解能力,因而采用了无监督预训练和有监督微调相结合的范式。

与 GPT-1 同期发布的预训练语言模型是大名鼎鼎的 BERT 模型。BERT 与 GPT-1 虽然都采用了基于 Transformer 架构的预训练学习方式,但是它主要面向自然语言理解任务(Natural Language Understanding, NLU),为此只保留了 Transformer 中的编码器,其中 BERT-Large 模型在众多的自然语言理解任务上取得了非常重要的提升,成为当时备受瞩目的“明星模型”。可以说,BERT 当时引领了自然语言处理社区的研究浪潮,涌现了大量针对它改进与探索的工作。由于 GPT-1 模型规模实际上与小规模的 BERT-Base 模型相当(100M 左右参数),在公开评测数据集合上的性能尚不能达到当时众多竞争模型中的最优效果,没有引起学术界的足够关注。

GPT-2

GPT-2 沿用了 GPT-1 的类似架构,将参数规模扩大到 1.5B,并使用大规模网页数据集 WebText 进行预训练。与 GPT-1 不同,GPT-2 旨在探索通过扩大模型参数规模来提升模型性能,并且尝试去除针对特定任务所需要的微调环节。

为了建立通用的多任务学习框架,GPT 系列模型将输入、输出和任务信息都通过自然语言形式进行描述,进而后续任务的求解过程就可以看作是任务方案(或答案)的文本生成问题。OpenAI 团队在 GPT-2 的论文中还尝试解释无监督预训练在下游任务中取得良好效果的原因:“由于特定任务的有监督学习目标与无监督学习目标(语言建模) 在本质上是相同的(预测下一个词元),主要区别就在于它们只是在全部训练数据的子集上进行优化,因此对于特定下游任务而言,优化无监督的全局学习目标本质上也是在优化有监督的任务学习目标” 。对这一说法的通俗理解是,语言模型将每个(自然语言处理)任务都视为基于世界文本子集的下一个词预测问题。因此,如果无监督语言建模经过训练后具有足够的能力复原全部世界文本,那么本质上它就能够解决各种任务。

GPT-3

OpenAI 在 2020 年发布了 GPT-3 模型,将模型参数扩展到了 175B 的规模。与 GPT-2 相比,GPT-3 直接将参数规模提升了 100 余倍。

在 GPT-3 的论文中,它正式提出了“上下文学习”这一概念,使得大语言模型可以通过少样本学习的方式来解决各种任务。上下文学习可以指导大语言模型学会“理解”自然语言文本形式描述的新任务,从而消除了针对新任务进行微调的需要。基于这一学习范式,大语言模型的训练与利用可以通过语言建模的形式进行统一描述:模型预训练是在给定上下文条件下预测后续文本序列,模型使用则是根据任务描述以及示例数据来推理正确的任务解决方案。

虽然 GPT-3 的论文没有明确提出上下文学习能力是大语言模型的涌现能力,但是指出了上下文学习对于大模型的性能增益会更加显著,而对于小模型来说则收益较小。总体而言,GPT-3 可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑,它证明了将神经网络扩展到超大规模可以带来大幅的模型性能提升,并且建立了以提示学习方法为基础技术路线的任务求解范式。

GPT-3.5

由于具有较强的模型性能,GPT-3 成为 OpenAI 开发更强大的大语言模型的研究基础。OpenAI 探索了两种主要途径来改进 GPT-3 模型,即代码数据训练和人类偏好对齐。

代码数据训练

原始的 GPT-3 模型的复杂推理任务能力仍然较弱,如对于编程问题和数学问题的求解效果不好。为了解决这一问题,OpenAI 于 2021 年 7 月推出了 Codex,这是一个在大量 GitHub 代码数据集合上微调的 GPT 模型。此外,2022 年 1 月 OpenAI 还公开了一种用于训练文本和代码嵌入的对比方法,结果表明该方法能够改善一系列相关任务的性能,包括线性探测分类、文本搜索和代码搜索等。根据 OpenAI 所发布的 API 信息所示,GPT-3.5 模型是在基于代码训练的 GPT 模型(即 code-davinci-002)基础上开发的,这表明在代码数据上进行训练有助于提高 GPT 模型的综合性能,尤其是代码能力。

人类偏好对齐

2022 年 1 月,OpenAI 正式推出 InstructGPT 这一具有重要影响力的学术工作,旨在改进 GPT-3 模型与人类对齐的能力,正式建立了基于人类反馈的强化学习算法,即 RLHF 算法。值得一提的是,在 OpenAI 的论文和相关文档中,很少使用“指令微调”(Instruction Tuning)一词,主要是使用“监督微调” 一词(即基于人类反馈的强化学习算法的第一步 )。除了提高指令遵循能力,基于人类反馈的强化学习算法有助于缓解有害内容的生成,这对于大语言模型在实际应用中的安全部署非常重要。

ChatGPT

2022 年 11 月,OpenAI 发布了基于 GPT 模型的人工智能对话应用服务 ChatGPT。OpenAI 官方博客文章概要地介绍了 ChatGPT 的研发技术,主要是沿用了 InstructGPT (原帖中称 ChatGPT 为“InstructGPT 的兄弟模型”) 的训练技术,但是对于对话能力进行了针对性优化。

在训练数据的收集过程中,ChatGPT 将人类生成的对话数据(同时扮演用户和人工智能的角色)与训练 InstructGPT 的相关数据进行结合,并统一成对话形式用于训练 ChatGPT。ChatGPT 在与人机对话测试中展现出了众多的优秀能力:拥有丰富的世界知识、复杂问题的求解能力、多轮对话的上下文追踪与建模能力、与人类价值观对齐的能力等。

GPT-4

继 ChatGPT 后,OpenAI 于 2023 年 3 月发布了 GPT-4,它首次将 GPT 系列模型的输入由单一文本模态扩展到了图文双模态。总体来说,GPT-4 在解决复杂任务方面的能力显著强于 GPT-3.5,在一系列面向人类的考试中都获得了非常优异的结果。GPT-4 发布后,微软的研究团队针对其进行了大规模人类生成问题的性能测试,实验结果表明 GPT-4 具有令人震撼的模型性能。此外,由于进行了为期六个月的迭代对齐(在基于人类反馈的强化学习中额外增加了安全奖励信号),GPT-4对恶意或挑衅性查询的响应更加安全。

GPT-4V

基于发布的 GPT-4 初版模型, OpenAI 在 2023 年 9 月进一步发布了 GPT-4V,重点关注 GPT-4 视觉能力的安全部署。在 GPT-4V 的系统说明中,广泛讨论了与视觉输入相关的风险评估手段和缓解策略。GPT-4V 在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。

GPT-4 Turbo

在 2023 年 11 月,OpenAI 在开发者大会上发布了升级版的 GPT-4 模型,称为GPT-4 Turbo,引入了一系列技术升级:提升了模型的整体能力(比 GPT-4 更强大),扩展了知识来源(拓展到 2023 年 4 月),支持更长上下文窗口(达到 128K),优化了模型性能(价格更便宜),引入了若干新的功能(如函数调用、可重复输出等)。

同时,Assistants API 功能也被推出,旨在提升人工智能应用助手的开发效率,开发人员可以利用特定的指令、外部知识和工具,在应用程序中快速创建面向特定任务目标的智能助手。此外,新版本的 GPT 模型还进一步增强了多模态能力,分别由 GPT-4 Turbo with Vision、DALL·E-3、TTS(Text-to-speech)以及 Listen to voice samples 等支持实现。

GPT-4o

2024年5月14日,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o,其名称中的“o”代表“Omni”(全能)。GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。

GPT-4o支持文本、音频、图像的任意组合输入与输出,能够跨模态理解和生成内容。例如,它可以直接处理语音中的情感语调,或结合图像与文本进行推理,无需依赖独立的转录或合成模型,显著提升了交互流畅性。

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

  • 文本:在MMLU(常识推理)基准测试中达到88.7%的零样本准确率,创历史新高47。
  • 视觉:在MMMU、MathVista等视觉理解测试中全面领先,支持复杂图表解析与图像生成49。
  • 音频:语音翻译性能超越Whisper-v3,支持50种语言实时互译

在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50% 。

相比GPT-4 Turbo,API调用速度提升2倍,价格降低50%,速率限制提高5倍,支持每分钟处理1000万 token。

GPT-4.5

2025 年 2 月发布,官方的介绍 https://openai.com/index/introducing-gpt-4-5/

同时网上也有很多评测信息,这里就不记录了。

还有 OpenAI 的推理大模型 o-series,一样不再这篇笔记里介绍了。官方介绍 https://openai.com/research/index/

DeepSeek

  • 训练模型:HAI-LLM
  • 语言大模型:DeepSeek-LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-Coder、DeepSeek-Coder-V2、DeepSeek-Math
  • 多模态大模型:DeepSeek-VL
  • 推理大模型:DeepSeek-R1

HAI-LLM

幻方在 2023 年 6 月发布的,深度学习训练框架,支持万亿参数、数千 gpu 训练。

详见 HAI-LLM:高效且轻量的大模型训练工具

DeepSeek-LLM

  • 发布时间:2024年1月5日

  • 定位:通用基座模型,强调中文理解与生成能力。

  • 能力亮点

    • 细化扩展定律;
    • 中文语料占比超60%,优化文化适配性;
    • 支持多轮对话与基础代码生成。
  • 参数量:67B

  • 训练方法

    • 基于Transformer架构,采用混合精度训练(FP16);
    • 数据涵盖多领域文本,未使用MoE架构。
    • 2T词元
  • 上下文窗口:4K(初始版本),部分精调版本扩展至16K。

  • 性能对比:> GPT-3.5

DeepSeek-Coder

  • 发布时间:2024年 1 月

  • 定位:代码生成与优化专用模型。

  • 能力亮点

    • 支持20+编程语言;
    • 集成GitHub百万级代码库训练。
  • 参数量:33B

  • 训练方法

    • 多任务学习(代码补全、错误修复);
    • 混合开源代码与合成数据增强泛化性。
  • 上下文窗口:16K(初始版本)。

  • 性能对比:> GPT-3.5

DeepSeek-Math

  • 发布时间:2024年 2 月

  • 定位:数学符号理解与定理证明专用模型。

  • 能力亮点

    • MATH数据集准确率75.3%,支持形式化验证;
    • 可生成解题步骤并验证逻辑正确性。
  • 参数量:120B

  • 训练方法

    • 结合数学数据集与强化学习(RL);
    • 内置符号推理引擎优化逻辑链生成;
    • 基于 7B DeepSeek-Coder 训练。
  • 上下文窗口:适配长公式推导(如32K)。

  • 性能对比:> GPT-3.5

DeepSeek-VL

  • 发布时间:2024年 3月

  • 定位:多模态视觉语言模型,支持图文跨模态任务。

  • 能力亮点

    • 图像描述、视觉问答(VQA)、数据可视化图表生成;
    • 融合LAION-5B与中文多模态数据集训练。
  • 参数量:未明确披露。

  • 训练方法

    • 跨模态对比学习优化图文匹配;
    • 动态路由机制平衡视觉与语言专家负载。
    • 基于 DeepSeek-LLM 训练。
  • 上下文窗口:适配图像与文本联合输入(如16K)。

  • 性能对比:< GPT-4V

DeepSeek-V2

  • 发布时间:2024年5月7日

  • 定位:高效推理的混合专家(MoE)模型,平衡性能与成本。

  • 能力亮点

    • 稀疏激活技术,推理成本降低40%;
    • 支持128K长文本处理,显存占用优化。
  • 参数量:236B(2360亿总参数,每token激活21B)。

  • 训练方法

    • 预训练数据量8.1万亿token;
    • 引入多头潜在注意力(MLA)无辅助损失负载均衡技术。
  • 上下文窗口:128K,适用于长文档分析。

  • 性能对比:≈ Mixtral

DeepSeek-Coder-V2

  • 发布时间:2024年6月17日

  • 定位:代码与数学推理增强版,支持多语言扩展。

  • 能力亮点

    • 编程语言支持从86种扩展至338种;
    • 新增代码调试与复杂算法生成能力(如动态规划)。
  • 参数量:236B(MoE架构)与16B(轻量版)。

  • 训练方法

    • 基于DeepSeek-V2架构优化,训练 6T词元,共 10.2T;
    • 引入多Token预测(MTP)提升生成连贯性。
  • 上下文窗口:128K(API支持32K)。

  • 性能对比:≈ GPT-4 Turbo

DeepSeek-V3

  • 发布时间:2024年12月26日

  • 定位:高性能MoE模型,专精数学与代码任务。

  • 能力亮点

    • 数学能力超越GPT-4o,HumanEval得分82.6%;
    • 支持128K上下文,训练成本仅557.6万美元(OpenAI GPT-4o的1/10)。
  • 参数量:671B(6710亿总参数,每token激活37B)。

  • 训练方法

    • 预训练数据14.8万亿token,含高比例数学与编程样本;
    • 采用YaRN技术扩展上下文至128K,结合GRPO强化学习优化输出。
  • 上下文窗口:128K(可扩展至百万级,需定制部署)。

  • 性能对比:≈ GPT-4o

DeepSeek-R1

  • 发布时间:2025年1月20日

  • 定位:推理优化模型,专注数学与代码长链推理(CoT)。

  • 能力亮点

    • 支持蒸馏小模型(1.5B/7B/14B),适配边缘部署;
    • RoboTHOR具身智能评测成功率超70%。
  • 参数量:671 B(基于V3 训练)。

  • 训练方法

    • 多阶段强化学习(RL)与知识蒸馏结合;
    • 冷启动数据与合成数据增强泛化性。
  • 上下文窗口:128K+(支持长逻辑链任务)。

Q.E.D.