当前位置:首页 > 经济纵横 > DeepSeek-R1模型训练方法发布

DeepSeek-R1模型训练方法发布

2025年09月18日71615

  DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek-R1模型训练方法发布
图片来源于网络,如有侵权,请联系删除

  DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

DeepSeek-R1模型训练方法发布
图片来源于网络,如有侵权,请联系删除

  在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。(记者张梦然)

【责任编辑:朱家齐】

扫描二维码推送至手机访问。

版权声明:本文由经济快讯网发布,如需转载请注明出处。

“DeepSeek-R1模型训练方法发布” 的相关文章

急速反弹后港股进入调整期,哪些基金表现稳健?

急速反弹后港股进入调整期,哪些基金表现稳健?

(原标题:急速反弹后港股进入调整期,哪些基金表现稳健?)图片来源于网络,如有侵权,请联系删除 出品|公司研究室基金组 文|曲奇 自9月中旬美联储降息0.5%,确定开启宽松周期后,港股就掀起了一波快速上涨行情。 根据Wind数据,9月11日至10月7日,恒生指数在17个交易日内涨幅34.32...

两新股今日登陆创业板,最高涨幅分别达883.35%、800%

两新股今日登陆创业板,最高涨幅分别达883.35%、800%

(原标题:两新股今日登陆创业板,最高涨幅分别达883.35%、800%)图片来源于网络,如有侵权,请联系删除 中宏网股票10月24日电 10月24日,六九一二(301592.SZ)、苏州天脉(301626.SZ)创业板首发上市,盘中双双大幅拉升。其中六九一二发行价29.49元/股、盘中最高289....

盛普股份:多家新成立企业迅速跻身主要供应商

盛普股份:多家新成立企业迅速跻身主要供应商

(原标题:盛普股份:多家新成立企业迅速跻身主要供应商)图片来源于网络,如有侵权,请联系删除 在2023年1月已创业板IPO“过会”的上海盛普流体设备股份有限公司(以下简称“盛普股份”),近期撤回了创业板首发上市申请。此次IPO,公司原计划募资7.07亿元,除1.8亿元用于补流外,其余投向新能源流体...

苏州天脉在深交所敲钟上市 开启导热散热领域新篇章

苏州天脉在深交所敲钟上市 开启导热散热领域新篇章

(原标题:苏州天脉在深交所敲钟上市 开启导热散热领域新篇章)图片来源于网络,如有侵权,请联系删除 中宏网股票10月28日电 10月24日,国家高新技术企业苏州天脉导热科技股份有限公司(股票简称:苏州天脉、股票代码:301626)成功登陆深交所创业板,开启了在国内散热领域的新征程。图片来源于网络,如...

拉普拉斯首发上市,开盘最高涨幅468.83%

拉普拉斯首发上市,开盘最高涨幅468.83%

(原标题:拉普拉斯首发上市,开盘最高涨幅468.83%)图片来源于网络,如有侵权,请联系删除 中宏网股票10月29日电 10月29日,拉普拉斯新能源科技股份有限公司(简称:拉普拉斯,688726.SH)科创板首发上市,开盘价100元/股,涨幅达468.83%。本次IPO发行价17.58元/股,发行...

“换头大师”毛戈平苦战IPO八年,上半年家族套现11.5亿

“换头大师”毛戈平苦战IPO八年,上半年家族套现11.5亿

(原标题:“换头大师”毛戈平苦战IPO八年,上半年家族套现11.5亿)图片来源于网络,如有侵权,请联系删除 出品|公司研究室IPO组 文|曲奇 10月9日,美妆品牌毛戈平第二次向港交所递表。从核准制到注册制,再从A股到港股,这已经是毛戈平谋求上市的第八年。 屡败屡战却坚持不懈的毛戈平,IP...