英伟达开源大模型家族:Nemotron 3详解
英伟达宣布收购SchedMD公司后,发布了名为Nemotron 3的新一代开源大语言模型。这些模型采用混合专家架构,并包含Nano(300亿参数)、Super(1,000亿参数)和Ultra(5,000亿参数)三种规格。英伟达通过开放的许可协议,让开发者能够使用Nemotron 3进行商业应用、创建衍生模型以及开发新的训练算法。同时,英伟达也提供了一系列配套工具库,如NeMo Gym和NeMo RL等,帮助用户更有效地进行强化学习训练与安全评估。此外,该系列还包括了详细的训练配方及10万亿token的预训练数据集。值得注意的是,Nemotron 3 Nano模型在性能方面已经超越了前一代产品,并且上下文窗口达到100万token,是上代的七倍之多。