腾讯混元发布业界领先的 MoE 大模型，探索高性能与资源优化的平衡之道

日期：2025/04/05 03:48来源：未知人气：53

导读：随着人工智能技术的迅猛发展，大型语言模型（LLMs）在自然语言处理、计算机视觉及科学计算等多个领域均取得了令人瞩目的成果。然而，随着模型规模的日益扩大，如何在保持高性能的同时，有效地降低资源消耗，成为了业界面临的一项重大挑战。为了迎接这一挑战，腾讯混元团队勇于创新，率先引入了混合专家（MoE）模型架构。他们最新发布的Hunyuan-Large（Hunyuan-MoE-A52B）......

随着人工智能技术的迅猛发展，大型语言模型（LLMs）在自然语言处理、计算机视觉及科学计算等多个领域均取得了令人瞩目的成果。然而，随着模型规模的日益扩大，如何在保持高性能的同时，有效地降低资源消耗，成为了业界面临的一项重大挑战。为了迎接这一挑战，腾讯混元团队勇于创新，率先引入了混合专家（MoE）模型架构。他们最新发布的Hunyuan-Large（Hunyuan-MoE-A52B）模型，不仅成为业界目前开源的规模最大的基于Transformer的MoE模型，更拥有3890亿总参数和520亿激活参数的强大能力。

此次，腾讯混元团队还开源了三款不同规模的模型：Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct以及Hunyuan-A52B-FP8，以满足企业及开发者在精调、部署等不同场景下的需求。这些模型均可在HuggingFace、Github等技术社区免费下载并商用。通过一系列技术优化，腾讯混元Large模型能够很好地适配开源框架的精调与部署，展现出强大的实用性。同时，腾讯云TI平台与高性能应用服务HAI也已开放接入，为模型的精调、API调用及私有化部署提供了一站式服务解决方案。

开源资源链接：

官网：https://llm.hunyuan.tencent.com/
GitHub（开源模型工具包）：https://github.com/Tencent/Hunyuan-Large
Hugging Face（模型下载）：https://huggingface.co/tencent/Hunyuan-Large/tree/main
Hugging Face Demo（模型演示）：https://huggingface.co/spaces/tencent/Hunyuan-Large

技术报告与模型效果：

腾讯混元Large模型在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度上均展现卓越性能，全面超越LlamaMixtral等顶尖开源大模型。

技术创新点

混元Large模型采用了MoE（Mixture of Experts，混合专家模型）结构，该结构每一层都包含多个并行同构专家，使得在前向计算时，一次token只会激活部分专家。这种稀疏的网络结构不仅在性能上优于同等大小的稠密模型，还能显著降低推理成本。

在混元Large模型中，我们提出了创新的路由和训练策略。首先，通过共享专家路由策略，模型设置了一个共享专家来捕获所有token的通用知识，同时还有16个需要路由的专家，根据激活得分将token动态分配给特定领域的专家进行学习。这种策略不仅保障了训练的稳定性，还提升了模型的性能。

此外，我们还提出了回收路由策略来进一步优化模型的性能。路由策略是MoE模型中的关键部分，它决定了token如何被分配给各个专家。传统的Top-K路由策略可能无法确保token在专家间的均衡分配，导致部分专家训练不稳定。针对这一问题，我们提出了随机补偿的路由方式，旨在更有效地激活每个专家的能力，从而提升模型的训练稳定性和收敛速度。

通过这些技术创新，混元Large模型在保证推理速度的同时，显著提升了参数量和模型性能，为多学科综合评测集以及中英文NLP任务、代码和数学等9大维度的应用提供了强大的支持。

专家特定学习率适配策略

在混元Large模型中，由于共享专家和路由专家在每个迭代中处理的token数存在显著差异，这导致每个专家的实际batchsize并不一致。为了充分利用这一特性并提升训练效率，我们提出了专家特定学习率适配策略。根据学习率与batch size的缩放原则，我们为不同类型的专家（如共享专家和特殊专家）分别适配了不同的最佳学习率，从而确保模型能够更高效地进行训练。

高质量的合成数据

大语言模型的训练离不开高质量的数据支撑。尽管公开网页数据广泛可用，但其质量往往参差不齐，难以满足高质量训练的需求。为了解决这一问题，腾讯混元团队在天然文本语料库的基础上，巧妙地运用混元内部系列大语言模型，精心构建了大量高质量、具备多样性和高难度的合成数据。通过模型驱动的自动化方法，我们不仅对数据进行高效评价和筛选，还持续监控并维护数据质量。这一系列举措，形成了从数据获取、筛选、优化到质检和合成的完整自动化数据链路。在数学领域，由于网页数据中优质思维链（CoT）数据稀缺，腾讯混元Large通过从网页中挖掘并构建大规模题库，以此为种子合成数学问答，从而确保了数据的多样性。同时，我们运用一致性模型和评价模型来监控并维护数据质量，以此产出大量优质且多样的数学数据，显著提升了模型的数学能力。

在代码领域，自然代码质量参差不齐，且包含代码解释的代码-文本映射数据尤为稀缺。为此，腾讯混元Large采用天然代码库中的代码片段作为种子，合成了大量包含丰富文本-代码映射的高质量训练数据，从而大幅提升了模型的代码生成能力。

针对通用网页中的低资源但高教育价值的数据，我们通过合成方式对数据进行变换和增广，构建了大量形式多样、风格各异的高质量合成数据，有效提升了模型在通用领域的表现。

此外，我们还采用了高效的超长文Attention训练和退火策略。通过将长文与正常文本混合训练，逐步多阶段引入自动化构建的海量长文合成数据，每阶段仅需少量长文数据，即可使模型获得良好的长文泛化和外推能力。腾讯混元Large模型在长文处理方面的专项提升，已成功应用于腾讯AI助手腾讯元宝中。该模型支持最大达256K的上下文长度，这一容量足以覆盖《三国演义》或英文原版《哈利・波特》全集的内容。此外，腾讯元宝还能一次性处理多达10个文档的上传，并能够同时解析多个微信公众号链接和网址，从而赋予其独特的深度解析能力。

推理加速优化

随着LLM处理序列的增长，Key-Value Cache所占据的内存逐渐增大，这给推理过程带来了成本和速度上的挑战。为了应对这一问题，腾讯混元团队采用了Grouped-Query Attention（GQA）和Cross-Layer Attention（CLA）两种策略，对KV Cache进行了有效的压缩。同时，通过引入量化技术，进一步优化了推理过程，提升了整体性能。通过引入Grouped-Query Attention（GQA）和Cross-Layer Attention（CLA）策略，我们成功将Hunyuan-A52B模型的head数量从80压缩至8，同时利用CLA每两层共享KV激活值的特点，将模型的KV Cache压缩至MHA的5%，显著提升了推理性能。接下来，我们将对比不同策略下的KV Cache效果。

Post-training 优化

SFT 训练

腾讯混元团队在预训练的基础上，进一步利用超过百万量级的 SFT 数据对模型进行了精调。这些数据涵盖了数学、代码、逻辑、文本创作等多个领域，为模型提供了多样化的训练样本。为了确保数据质量，我们构建了一套全面的数据质检流程，包括规则和模型判别，以发现并纠正潜在的数据问题。此外，为了更高效地筛选高质量的 SFT 数据，我们基于 Hunyuan-70B 模型训练了一个 Critique 模型，它能够对指令数据进行细致的打分，从而帮助我们自动化地过滤低质数据并提升被选 response 的质量。

在 SFT 训练中，我们采用了32k的长度，并为了防止过拟合，引入了1的attention dropout和2的hidden dropout。我们发现，与Dense模型相比，采用MoE架构的模型在合理的dropout设置下，能够显著提升下游任务的评测效果。同时，通过指令数据的质量分级和分阶段训练，我们进一步提高了模型的效果。

RLHF 训练

为了使模型能够生成更符合人类偏好的回答，我们采用了直接偏好优化（DPO）算法对SFT模型进行了强化训练。与传统的离线DPO算法不同，我们设计了一种在线强化pipeline，该框架结合了固定pair数据的离线DPO策略和在线强化策略。具体来说，每一轮训练中，模型仅使用少量数据进行采样和训练。训练完成后，模型会对新数据进行采样并生成多个回答。然后，通过奖励模型（RM）对这些回答进行打分和排序，以构建偏好对并用于强化训练。为了进一步稳定强化学习阶段的训练，我们随机选取了部分SFT数据进行sft loss的计算。由于这些数据在SFT阶段已被学习过，加入sft loss旨在维持模型的语言能力，同时确保系数设置较小。另外，为了增加dpo pair数据中优质答案的生成概率，防止DPO通过降低所有答案概率的方式来寻求简便解，我们引入了好答案的chosen loss。通过这些策略的有机结合，我们的模型在经过RLHF训练后，各项性能指标均取得了显著的提升。

训练与精调

腾讯混元Large模型，源自腾讯全链路自研，其训练与推理均依托于腾讯Angel机器学习平台。在面对MoE模型中的All2all通信效率挑战时，Angel训练加速框架（AngelPTM）通过多项优化措施，如Expert计算与通信层次的overlap优化、MOE算子融合优化以及低精度训练优化等，显著提升了性能，甚至超越了DeepSpeed开源框架的6倍。此外，腾讯混元Large模型还配套开源了Angel推理加速框架（AngelHCF-vLLM），该框架由腾讯Angel机器学习平台与腾讯云智能联合研发，专为混元Large模型量身定制。通过精细的量化技术，如NF4和FP8的叠加，以及并行解码优化，该框架在保持高精度的同时，成功节省了超过50%的显存，并实现了相较于BF16吞吐提升1倍以上的卓越性能。此外，Angel推理加速框架还支持TensorRT-LLM backend，进一步将推理性能提升了30%，这一成果已在腾讯内部得到广泛应用，并计划在近期推出开源版本，以惠及更多用户。

上一篇：混元AI大模型本地服务团队有哪些特色？巨推管家为您揭秘！

下一篇：一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持