华为的盘古将会是最强的中文大模型吗？最新论文模型包含万亿参数

日期：2025/03/30 06:22来源：未知人气：56

导读：近来，随着大语言模型ChatGPT的横空出世，国内一些大厂也开始出击。百度推出了文心一言，阿里云的大模型通义千问，其余的大厂也有各自的布局。如今华为即将发布最新的大语言模型，我便找了相关的最新论文来了解一下。文中主要包含大模型盘古的架构介绍和一些细节，实验部分包括了模型实际测试的例子，如果只想了解该模型的效果，可以通过文章后面部分实验的例子来进行了解。摘要大型语言模型的扩展极......

近来，随着大语言模型ChatGPT的横空出世，国内一些大厂也开始出击。百度推出了文心一言，阿里云的大模型通义千问，其余的大厂也有各自的布局。如今华为即将发布最新的大语言模型，我便找了相关的最新论文来了解一下。文中主要包含大模型盘古的架构介绍和一些细节，实验部分包括了模型实际测试的例子，如果只想了解该模型的效果，可以通过文章后面部分实验的例子来进行了解。

摘要

大型语言模型的扩展极大地改善了自然语言的理解、生成和推理。在这项工作中，开发了一个系统，该系统在 Ascend 910 AI （ https://e.huawei.com/en/products/servers/ascend）处理器和 MindSpore 框架（ https://www.mindspore.cn/en）的集群上训练了万亿参数的语言模型，并提供了名为 PanGu-Σ 的具有 1.085T 参数的语言模型。利用 PanGu-α 固有的参数，将密集的 Transformer 模型扩展为具有随机路由专家 (RRE) 的稀疏模型，并通过使用专家计算和存储分离 (ECSS) 在 329B 令牌上有效地训练模型。这导致通过异构计算将训练吞吐量提高了 6.3 倍。实验结果表明，PanGu-Σ 在各种中文 NLP 下游任务的零样本学习中提供了最先进的性能 。此外，它在开放域对话、问答、机器翻译和代码生成等应用数据微调时表现出强大的能力。

引言

大型语言模型 (LLM)在自然语言理解、生成和推理领域展现了前所未有的能力和潜力。通过利用大量文本数据，语言模型的性能随着计算预算和模型参数的增加而扩大，最近关于语言模型缩放规律的研究证明了使用足够数量的训练数据和相应的计算预算来训练 LLM 以实现最佳性能的必要性。因此，这项工作的主要动机之一是设计一个可扩展的模型架构和一个高效的分布式训练系统，可以使用高训练吞吐量的数据。

• 模型缩放：LLM 的模型性能有望随着模型规模的扩大而扩大。 • 系统缩放：已经提出了 DeepSpeed 4 等框架来支持训练万亿参数模型。

在这项工作中提出的 PanGu-Σ，这是一种具有稀疏架构的大型语言模型，包含 1.085 万亿个参数。

在 MindSpore 5 的框架下开发了 PanGu-Σ 模型，来自具有 Transformer 解码器架构的 PanGu-α 的 PanGu-Σ 固有参数，并通过随机路由专家 (RRE) 进行扩展。通过 RRE 的设计，人们可以很容易地从 PanGu-Σ 中提取子模型，用于各种下游应用，例如对话、翻译、代码生成或一般自然语言理解。

总体而言，与具有相同超参数但具有 MoE 架构的模型相比，训练吞吐量提高了 6.3 倍。通过在 40 多种自然语言和编程语言中消耗 329B 令牌，PanGu-Σ 在中文领域的子模态明显优于之前的 SOTA 模型，包括具有 13B 参数的 PanGu-α 和具有 260B 参数的 ERNIE 3.0 Titan超过 16 个下游零样本设置中的六类任务，无需任何多任务微调或指令调整。在对话、机器翻译和代码生成等多个应用领域测试了经过微调的 PanGu-Σ 的性能。 PanGu-Σ在相应领域优于 SOTA 模型。

模型设计原则

PanGu-Σ旨在实现以下目标：

• 性能：跨多个领域和任务的最先进的 NLP 性能。• 效率：在适度集群上以最大系统性能训练万亿参数模型。 • 可用性：可扩展到各种领域或任务，无需从头开始重新训练模型。 • 部署：在各种现实世界设置中轻松定制和部署。

在训练阶段，万亿参数 PanGu-Σ 模型被输入来自多个领域的数据。然而在部署阶段，往往没有必要甚至不可能为每个应用都托管万亿参数模型。因此，允许基于各种训练和部署设置对其参数进行分组和分离的模型具有显着优势。

盘古-Σ（PanGu-Σ ）架构

图：PanGu-Σ 架构。该架构由密集的变压器层和稀疏的变压器层混合而成。

较低的 M 层是跨不同域共享的密集层。上 N 个变换器层的前馈部分通过随机路由专家 (RRE) 稀疏地激活。来自不同域的令牌具有不同的嵌入。

PanGu-Σ 采用自回归语言建模，堆叠的转换器解码器层和顶部的查询层。PanGu-Σ 架构提供了灵活的设计。底部 M 层在所有域中全局共享，顶部 N 层（包括查询层）根据输入数据的域稀疏激活。在每个 RRE 层中，总共有 K 个专家分在 G 个组中，每个组中专家的数量可以不同。这种灵活的设计提供三种模式：

• 混合模式：当M > 0、N > 0 和K > 0 时，模型同时包含稀疏RRE 层和密集层。 • 密集模式：当N = 0 或K = 1 时，架构将缩减为密集的PanGu-α 模型。 • 稀疏模式：当 M = 0 且 K > 1 时，架构将是稀疏模型

在这个万亿参数建模实践中，通过将共享参数放置在靠近输入层（底部）和所有稀疏激活的专家参数靠近输出层（顶部）来使用混合配置。在模型设计阶段，在较小规模的模型上对各种专家放置策略进行了基准测试，所选择的策略获得了最低的语言建模困惑度。假设是底层倾向于学习一般知识，而特定知识处于更高的抽象层次，更适合顶层学习。在令牌嵌入层中，我们选择对不同的域使用不同的嵌入矩阵。

随机路由专家

在前 N 层中，按照专家混合 (MoE) 范例，用多个条件激活的前馈子层（专家）替换每个前馈子层。设计 MoE 架构的一个关键问题是如何将代币路由给专家。对于 PanGu-Σ，提出了一种随机路由专家（RRE）机制，其灵感来自哈希层。具体来说，RRE 以两级方式按 ID 路由令牌。在第一级中，令牌按领域映射到一组候选专家，然后在第二级中，根据令牌-专家路由映射选择该组中的一名专家来处理令牌。路由映射是随机初始化的，每一层都有一个独立初始化的映射来平衡计算。

图：PanGu-Σ 中的随机路由专家 (RRE)。令牌首先按领域路由到一组专家，然后随机路由到该领域的其中一位专家。模型中没有可学习的路由器。

RRE 需要一个在预训练之前初始化的路由映射，下面的算法描述了如何构建路由表：

数据集采集

收集了 40 个领域的数据集，其中大量数据分布在四个主要领域：中文、英文、双语（中文和英文）和代码。其余较小部分的领域分别由 26 种其他单语自然语言、6 种编程语言和来自金融、健康、法律和诗歌领域的文本数据组成。

四个主要领域的数据分布和数据来源：

数据集设计

对于四个主要领域，每个领域都可以适应不同的下游任务。为了更好地支持特定领域的下游任务，本文针对不同的领域使用不同的数据格式。对于中文和英文域，在每个训练样本的末尾插入表示训练文本结束的标记。

对于双语域，根据训练样本的来源（来自中文数据集或英文数据集）将或标记插入到训练样本的头部，并插入标记在每个训练样本的末尾。

对于代码域，根据训练样本的编程语言类型在训练样本的头部插入或标记，在每个训练样本的末尾插入标记。其余36个域中，26个单语域、金融、健康、法律、诗歌域的数据格式与中文、英文域相同，6个编程语言域的数据格式与代码域相同。

对于格式化数据集 D，假设它包含 n 个训练样本 D = {s1, s2, . . . , SN}。为了充分利用升腾910集群的计算能力，在预训练阶段加速训练，将数据集中的所有样本拼接成一个序列，然后按照固定长度截取拼接序列中的训练实例（ 1024)，如图6所示。在微调阶段，对于格式化数据集中的每个训练样本，如果长度小于固定长度，我们用一个特殊的标记将样本填充到固定长度.如果长度大于固定长度，多余的部分将被截断。图 7 显示了该过程。与盘古-α模型不同，各PanGu-Σ模型的训练样本包含两个字段：作为训练实例的令牌ID的输入序列及其域ID。域 ID 指示训练实例属于哪个域。PanGu-Σ 模型的 RRE 层决定训练令牌通过域 ID 路由到哪些专家。

系统

PanGu-Σ 使用 MindSpore 1.6 框架 7 实现，并在 512 个 Ascend 910 加速器（也称为 Ascend 910 NPU）上进行训练。

假设使用具有混合精度训练的 Adam 优化器，一个 1T 模型通常仅用于参数、梯度和优化器状态总共消耗 16TB 内存。在训练期间，模型需要额外的内存用于输入数据、网络激活、通信缓冲区和临时变量。估计，以合理的批量大小训练具有 1 万亿参数的PanGu-Σ模型需要超过 32TB 的内存，并且需要超过 1,000 个 Ascend 910 加速器或具有 32GB 高带宽内存 (HBM) 的 NVIDIA V100 GPU。目标不是投入大量硬件资源来扩展模型，而是使用一个由 512 个 Ascend 加速器组成的合理规模的集群来训练 PanGu-Σ。为此，采用异构训练并将优化器状态卸载到 CPU。启用异构训练后，所有优化器状态从加速器转移到具有 750GB 主机内存和 KunPeng 920 CPU 8 的主机，可以将整个训练过程装入集群。其次，在启用 vanilla 优化器卸载后，系统吞吐量是不可接受的。

因此，提出了如图所示的专家计算和存储分离 (ECSS) 方法：

图中转换 PanGu-Σ 中的专家计算和存储分离 (ECSS)。在每次迭代中，稀疏度s∈(0, 1]和专家数量K，只有A = Ks个专家被查找操作激活，这减少了设备和主机之间的通信成本，以及设备中前向和反向计算的成本以及主机中的优化器操作。

通过将所有技术结合在一起，与普通的 PanGu-Σ 异构训练相比，实现了 6.3 倍的吞吐量提升，如图所示。PanGu-Σ wo/w 专家计算和存储分离 (ECSS) 的训练吞吐量（令牌/秒）。ECSS 可以将训练吞吐量提高 6.3 倍。

实验

预训练

使用 64 个节点的集群，每个节点配备 8 个 Ascend 910 加速器和 MindSpore 框架。 PanGu-Σ 预训练过程分为两个阶段。在第一阶段，激活四个主要领域的专家来消费来自所有四个主要领域的数据，包括双语、中文、英语和代码。在第二阶段，让所有专家消费所有领域的数据。下图显示了 640 名专家如何分配到 40 个域组。

图：表示PanGu-Σ 领域和专家之间的映射。

来自特定领域的数据被路由到分布在不同设备上的一组专家。专家的颜色区分他们对应的领域。每个设备上有来自不同领域的十位专家。

训练 PanGu-Σ，每个样本的全局批量大小为 512，序列长度为 1024。预训练持续约 100 天。

PanGu-Σ 预训练的损失曲线

为了更好地理解 PanGu-Σ 训练过程，检查了训练状态的统计数据，发现 RRE 层的梯度比非稀疏模型小得多。为了解决这个问题，首先为所有模型参数设置一个非常小的 1，然后我们更进一步，只为 RRE 层设置一个更小的 2，因为与密集层相比，稀疏层收到更小的有效批处理由于其条件激活的性质。具体来说，我们为 ADAM 优化器设置混合超参数如下：

ADAM 优化器设置混合超参数

继承学习

PanGu-Σ模型继承了现有模型的能力，然后继续同时在四个领域进行训练。在本文中，盘古-Σ 继承了盘古-α 13B 版本。

扩展词汇表

由于PanGu-α的词汇表主要是为了支持中文文本而设计的，扩展了它的词汇表以支持中文和英文文本。

继承和扩展模型参数

为了尽可能继承现有模型的能力，PanGu-Σ的词嵌入和RRE层的所有专家都用PanGu-α相应的嵌入和前馈层进行初始化，和其他参数用相应的参数初始化。图显示了 PanGu-Σ 如何继承和扩展 PanGu-α 的参数。

PanGu-Σ 如何继承和扩展 PanGu-α 的参数

提取特定领域的子模型

直接部署像 PanGu-Σ 这样的万亿参数模型是昂贵的。为了将 PanGu-Σ 的能力转移到各种下游任务并减少服务资源的消耗，提出了一种利用 RRE 设计的无损专家剪枝方法。可以单独提取域模型以进行进一步的微调、评估和部署。图说明了如何从 PanGu-Σ 中提取特定领域的子模型。

中文下游任务评估

所有中文下游任务的每个数据集都可以使用基于生成的方法或基于评分的方法进行评估。对于每个实例，通过将其填充到手动设计的模板中来获得文本序列，然后将文本序列输入 PanGu-Σ 进行预测以获得结果。用于所有数据集的模板如表 4所示。

选择 PanGu-α 和 ERNIE 3.0 Titan 作为基准进行比较。下表是中文下游任务的零样本结果。与 ERNIE 3.0 Titan 相比，PanGu-Σ 在 16 个数据集中的 11 个上超越，在所有数据集上的平均得分高出 3.96 分。

中文对话生成

自聊的案例如图所示，对话流畅，知识丰富。

基于主题的对话评估

开放领域问答测评

机器翻译

代码生成

MBPP 微调数据集中的示例

总结

这项工作提出了万亿参数语言模型架构 PanGu-Σ。通过Random Routed Experts（RRE）和Expert Computation Storage Separation（ECSS），PanGu-Σ使用升腾910 AI加速器在MindSpore框架下实现了系统的高性能。通过使用 329B 的 token 对 PanGu-α 进行扩展和持续训练，PanGu-Σ 在 few-shot NLU、开放域对话、问答、机器翻译等一系列下游任务中成功取得了最先进的结果和代码生成。尽管取得了这些成就，但在未来的工作中仍然存在一些值得研究的问题。

• 稀疏模型以降低的计算成本提供更大的模型大小的好处。尽管有现有的进步，但在稀疏架构中仍然存在许多算法和系统挑战。应对这些挑战并创建用户友好、高性能的稀疏架构系统仍然是一个悬而未决的问题。

• 大型语言模型旨在应用于真实场景。因此，为了增强模型进化，系统应该从开放环境中接收准确的反馈。尽管 InstructGPT和 ChatGPT 10 提供了有前途的方法，但它们需要大量数据标记，这可能既耗时又昂贵。因此，设计一种有效的方法来生成与现实世界保持一致的有价值信号是一个值得探索的重要研究课题。

• 大规模语言模型为人工智能系统提供智能基础和各种模态对齐目标。因此，利用语言模型作为基础并在多模态模型中结合多种感知输入模态将是最重要的主题之一，正如 Flamingo 和 GPT-4 已经证明的那样。

• 大型语言模型在实时应用方面具有巨大潜力，但它们的部署成本仍然是需要克服的主要障碍。为了使它们更容易商业化，研究人员应该关注两个方向：

1）探索在保持其出现能力的同时压缩大型语言模型的大小的技术；

2）优化系统软件和/或硬件以加速模型的性能。

这两个方向对于大型语言模型的部署都很有价值。

• 在线知识更新对于大型语言模型系统的最佳性能也至关重要。有效地在线存储和更新知识是一项重大挑战，需要先进的系统基础设施和算法。随着大规模语言模型的不断发展，在线学习问题无疑将变得越来越重要，成为未来研究的重点。

参考资源

https://arxiv.org/pdf/2303.10845.pdf

上一篇：“霸榜CLUE”，华为云刚刚发布全球最大中文语言预训练模型！

下一篇：深夜重磅发布！腾讯混元自研深度思考模型T1正式推出