日期:2025/04/07 03:38来源:未知 人气:52
今日,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT) 与元奖励模型(Meta Reward Model) 两项核心技术,为提升大语言模型(LLM)的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫,引发全球AI界高度关注。
传统大模型训练依赖强化学习(RL),通过调整参数优化模型性能,但其推理能力的提升常受限于固定架构。此次论文首次提出“推理时Scaling”概念,即在不改变模型参数的前提下,通过动态调整奖励机制实现性能跃升。
研究团队构建了DeepSeek-GRM系列模型 ,其核心创新在于:
实验数据显示,该方法在GSM8K数学推理测试中准确率提升12%,代码生成任务的执行成功率提高19%。论文已在arXiv平台公开(https://arxiv.org/abs/2504.02495 ),代码与部分模型权重将逐步开源。
此次突破延续了DeepSeek“高效低成本”的技术路线。据披露,DeepSeek-GRM的训练成本仅为同类模型的1/5,其采用的FP8混合精度训练与多令牌预测技术,大幅降低了对算力的依赖。这与OpenAI等企业动辄上亿美元的开发成本形成鲜明对比。
值得关注的是,论文中提及的元奖励模型框架,可直接应用于现有大模型升级。清华大学人工智能学院教授沈阳评价称:“这不仅是方法论的创新,更为开源社区提供了可复用的工具链,有望加速全球AI技术民主化进程。”
尽管论文未明确提及R2模型,但多项线索显示其关联性:
不过,DeepSeek官方尚未确认R2发布时间。3月11日,公司曾辟谣“3月17日发布R2”的传闻,表明其对产品节奏把控谨慎。分析人士推测,此次论文或是R2发布的“技术白皮书”,后续可能通过分阶段开源策略逐步推进。
此次合作凸显中国产学研协同创新的优势。清华大学在算法理论上的积淀,与DeepSeek工程化能力的结合,形成“理论-实践”闭环。值得关注的是,论文作者名单中近半数为华人研究者,且训练数据包含高质量中文语料,为中文场景优化提供独特优势。
市场层面,DeepSeek的崛起已引发连锁反应:
研究团队指出,下一步将探索三大方向:
正如论文结语所言:“当模型学会在推理中自我反思,我们离通用人工智能(AGI)又近了一步。”这场由中美技术竞赛推动的AI革命,正悄然改写全球科技权力版图。