首个接受同行评审的大语言模型!DeepSeek-R1论文登《自然》封面,作者包括梁文锋

article/2025/9/18 8:59:12

9月18日,梁文锋带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。

今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,创始人梁文锋位于署名之列。

《自然》杂志指出,如此总结DeepSeek-R1带来的进步:如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。

DeepSeek的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。DeepSeek-R1模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。

最终它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

在《自然》的Editorial(社论)指出,大型语言模型需要同行评审。《自然》认为,大型语言模型(LLMs)正在迅速颠覆人类获取知识的方式,但最广泛使用的这些模型尚未在研究期刊中接受独立同行评审。同行评审有助于澄清LLMs的工作原理,并帮助评估它们是否真正实现了其宣称的功能。“这一情况随着自然杂志发表DeepSeek-R1模型细节而改变。”

《自然》指出,自1月在Hugging Face上发布R1以来,DeepSeek-R1已夺得该平台复杂问题解决类模型下载量冠军。现在,该模型已由八位专家评审,以评估其工作的原创性、方法论和稳健性。该论文将与审稿人报告和作者回应一同发表。“这一切都是AI行业迈向透明度和可重复性的可喜一步”。

“依赖独立研究者的同行评审是AI行业回击炒作的一种方式。鉴于这项技术已变得如此普遍,无法验证的声明对社会构成了真正的风险。我们希望,出于这个原因,更多AI公司将提交其模型接受评审。”《自然》写道。

论文摘要中表示,推理能力作为人类智能的基石,能够支持从数学问题求解、逻辑演绎到程序编写等复杂认知任务。人工智能领域的最新进展表明,当大型语言模型(LLMs)的规模达到足够程度时,能够展现出包括推理能力在内的涌现性特征,然而,要在预训练阶段实现这类能力,通常需要耗费大量计算资源。

这项研究旨在探索大型语言模型在强化学习(RL)框架下通过自进化发展推理能力的潜力,同时最大限度减少对人工标注的依赖。

具体而言,以DeepSeek-V3Base模型为基础,采用群体相对策略优化(GRPO)作为强化学习框架。奖励信号仅依据最终预测结果与真实答案的一致性来确定,不对推理过程本身施加任何约束。在解决推理问题时,该模型倾向于生成更长的响应内容,在每个响应中融入验证、反思以及对多种替代方法的探索。尽管并未明确教授模型如何进行推理,但它通过强化学习成功掌握更优的推理策略。

今年1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1引爆AI行业,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAIo1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入DeepSeek。

伴随AI大模型行业的日新月异,DeepSeek已经更新出R1以外的新版本,但万众期待的R2尚未面世。此前8月21日DeepSeek正式发布DeepSeek-V3.1,称其为“迈向Agent(智能体)时代的第一步”。

据介绍,V3.1包含三大主要变化。首先,V3.1采用混合推理架构,一个模型同时支持思考模式与非思考模式;其次,V3.1具有更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;另外,V3.1具有更强的Agent能力,通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。

当时,DeepSeek表示,DeepSeek-V3.1使用UE8M0FP8Scale的参数精度。UE8M0FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设。相关表态,一度带动国产芯片算力股价迎来飙升。

9月5日,据外媒报道,DeepSeek被曝光正在开发具备更先进的AI智能体相关功能的人工智能模型,目的是与OpenAI等头部科技公司在技术新前沿展开竞争。目前DeepSeek创始人梁文峰计划在今年四季度发布相关智能体产品。

记者向DeepSeek内部人士询问此事真实性,对方未给予明确回复,但并未否认此事。

据外媒援引相关消息称,DeepSeek正在开发的智能体强调自主任务处理能力,与传统聊天机器人不同,智能体能够代表用户在最少指令下完成多步骤复杂任务,并根据历史操作持续学习和改进,减少人工干预需求。

2025年被业界称为“AI智能体元年”。8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》)提出,到2027年,率先实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%;到2030年,中国人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超90%。

    责任编辑:孙扶
    图片编辑:乐浴峰
    校对:刘威

    http://news.xdnf.cn/RjXYXdBsAB

    相关文章

    一年50余部剧,陕西清涧人生影视城成影视拍摄“新宠”

    清涧人生影视城影视产业蓬勃发展清涧宣传 2025年09月16日 17:33 陕西短剧《重生1990,八岁的我偷钱开奶茶店》在人生影视城拍摄中。近日,记者从清涧县相关部门获悉,今年已经在清涧人生影视城拍摄各类剧目50余部,自影视城建成投运以来已累计拍摄70余部。这座以20世纪80年代风…

    “全过程视角”看历史人物,学者韩昇新作解读隋文帝与武则天

    9月13日,复旦大学历史学系教授韩昇的两本新书《隋文帝传》(增订版)与《武则天传》,在北京举行的新书分享会现场,将听众的思绪引向了一千四百多年前的激荡岁月。发布会海报《隋文帝传》(增订版)与《武则天传》,这两部个人传记合起来恰似一部宏大的时代双翼,试图托举读者…

    多地将从今秋起试行中小学“春秋假”,湖北恩施明确春季和秋季学期放假均不少于1周

    9月16日,商务部等9部门对外发布了《关于扩大服务消费的若干政策措施》(下称《措施》),提出五方面19条举措。其中,第十三条指出:优化学生假期安排,完善配套政策。在放假总天数和教学时间总量保持不变的情况下,鼓励有条件的地方结合气候条件、生产安排、职工带薪休假制度…

    “四连板”上海建工再发风险提示:黄金收入营收占比较低,股票换手率高,存在短期大跌风险

    “四连板”上海建工再发股票交易异常波动暨风险提示公告。9月17日晚间,上海建工集团股份有限公司(上海建工,600170.SH)发布公告,公司股票于2025年9月16日、9月17日连续两个交易日内日收盘价格涨幅偏离值累计达20%,属于股票价格异常波动。经公司自查并向控股股东核实,公司…

    侵华日军第59师团中将师团长藤田茂:日本的侵华战争是一场持续溃败的彻底败北

    藤田茂(1889.09.17-1980.04.11),男,日本广岛县人。日本陆军士官学校第23期毕业。在日本侵略中国期间,任日本陆军第20师团骑兵第28联队大佐联队长、第12军骑兵第4旅团少将旅团长、第59师团中将师团长等职;日本侵华战争结束后,1945年8月25日在朝鲜咸兴被苏军俘虏,1950年7…

    抗战回望53︱九一八事变后的一周

    今年是抗日战争胜利暨世界反法西斯战争胜利80周年,澎湃新闻私家历史与抗战文献数据平台合作,推出“抗战回望”系列,选取抗战期间的报纸、图书、日记等史料加以介绍,希冀带领读者前往历史现场,触碰抗战时中国军民的精神与生活。九一八事变后,日本一步一步在军事、政治上蚕…

    张文元的“漫画抗战”与“国画抗战”

    张文元(1910-1992),江苏太仓毛市乡人。家中世代务农,生活清贫。小学毕业后因家贫无法升学,在太仓县城免费的艺徒学校半工半读,学习漆科。该校清末由教育家唐文治(太仓人,时任邮传部上海高等实业学堂即现交通大学前身监督)等创设,专收贫民子弟之有志习艺者。毕业后张文…

    强征、奴役中国劳工,侵华日军罪行再添铁证

    9月18日,黑龙江省档案馆依法首次向社会公布“侵华日军强征及奴役中国劳工”专题档案,共计62件。这批珍贵档案深刻揭露了日本帝国主义在侵华期间实施的“劳动统制”政策,有计划、有组织地掠夺、奴役中国劳工的历史真相,以无可辩驳的原始文件证实了日本军国主义犯下的战争罪行…

    四川一高校通报学生外卖被扔:校方将承担快递柜费用,保卫处长停职

    四川工程职业技术大学9月18日就学校保安将未放柜外卖扔垃圾桶事件处理情况,再次进行通报。9月16日,四川工程职业技术大学发生保安将未放柜外卖扔垃圾桶事件后,学校高度重视,迅速开展调查核实工作,现将处理情况通报如下:一、针对学校保安人员简单粗暴行为给学生造成的损失…

    体坛联播|利物浦3比2绝杀马竞,穆里尼奥执教本菲卡

    利物浦已经连续5场比赛绝杀对手。范戴克补时绝杀,利物浦3比2马德里竞技北京时间9月18日凌晨,2025-2026赛季欧冠联赛阶段第1轮拉开大幕,在安菲尔德球场,利物浦主场作战以3比2战胜马德里竞技。在赢下欧冠“开门红”的同时,利物浦取得各项赛事5连胜。值得一提的是,他们已经连…

    歌剧《白毛女》迎延安首演80周年,中国歌剧舞剧院院长人民日报撰文

    1962年演出《白毛女》节目单。 中国歌剧舞剧院 供图2015年版《白毛女》演出剧照,蒋宁饰喜儿,高鹏饰杨白劳。 中国歌剧舞剧院 供图1945年4月,中国共产党第七次全国代表大会召开的前夜,延安杨家岭中央大礼堂,一出由延安鲁艺集体创作的大戏首次上演。近千人的礼堂,挤得满满的…

    时隔9个月美联储再降息!美股盘中巨震,中国资产大涨

    这是9月17日在美国首都华盛顿拍摄的美国联邦储备委员会标志。新华社 图北京时间9月18日凌晨,美联储在结束为期两天的货币政策会议后宣布,将联邦基金利率目标区间下调25个基点,至4.00%—4.25%之间。这是美联储自2024年12月以来的首次降息。最新点阵图显示,多数美联储官员预计…

    蓝领招聘,在写字楼里疯抢白领

    “与其说蓝领招聘赛道的玩家押注蓝白领边界模糊的趋势,不如说是看到了零工市场变得日益庞大了。” 文 / 巴九灵(微信公众号:吴晓波频道) 这一个月来,忙着上下班的都市白领们估计每天都要被这个男人“硬控”几秒: 他戴着无框眼镜,穿着蓝色工服,左手装模作样打电话,右…

    来上海美术馆看漫画中的“上海现代”

    从《点石斋画报》的吴友如,到《三毛流浪记》的张乐平,从《西游漫记》的张光宇,到华君武、丁聪、丰子恺,这些漫画家的作品共同构成了一部视觉化的上海现代文化史,一部用线条和色彩写就的城市记忆。正在上海美术馆举办的年度大展“上海现代”中,漫画作为海派文化的重要组成…

    美联储主席:关税对价格的影响将于今年剩余时间及明年逐渐显现

    9月17日,美国联邦储备委员会主席鲍威尔在华盛顿出席记者会。 新华社 图时隔9个月,美联储重启降息。北京时间9月18日凌晨,美联储最新的议息决议将联邦基金利率的目标区间下调25个基点至4%-4.25%,符合市场预期。在会后的新闻发布会上,美联储主席鲍威尔表示,尽管消费者尚未…

    战犯榊原秀夫自供犯下的历史罪行

    今年是九一八事变爆发94周年。日前,抚顺战犯管理所旧址陈列馆向记者披露当年关押在此的关东军第731部队第162支队少佐支队长榊原秀夫的亲口供述。榊原秀夫当年参加黑龙江省安达县杀人实验、杀害4名爱国志士等经过,无可辩驳地证明了731部队犯下的反人类罪行。抗战胜利前夕,侵…

    人民日报整版聚焦:百年变局与智能时代的党报评论如何革新

    以创新求突破 以变革谋未来——2025党报评论融合发展论坛综述这是来自时代的叩问,更是党报评论必须回答的命题——面对挑战与机遇,如何牢牢掌握舆论主导权?强化责任与担当,如何实现正能量、大流量、高质量相统一?跑出加速度,占领制高点,以媒体深度融合推进主流媒体系统性…

    唐宋经济制度与地方社会

    2025年9月6日,“唐宋经济制度与地方社会”工作坊在上海师范大学徐汇校区文苑楼举行。本次工作坊旨在深入研讨唐宋经济制度与地方社会的互动逻辑,总结其中蕴含的治理经验与制度智慧,为推进当下国家治理体系和治理能力现代化提供学理支撑与历史借鉴。工作坊由上海师范大学“中…

    首届“历史与哲学上海论坛”在上海财经大学人文学院举行

    2025年9月12日至13日,由上海财经大学人文学院主办的首届“历史与哲学上海论坛——历史与哲学的对话”在上海财经大学人文学院同新楼成功举行。本次论坛由中国社会科学院古代史研究所鱼宏亮、上海财经大学人文学院王献华教授发起,邀请了来自哲学、历史学、考古学、经济学等不同…

    工作坊|知识·空间·思想:大学传统的多元展演

    2025年9月13日星期六上午,复旦大学中华文明国际研究中心学术工作坊主办的“知识空间思想:大学传统的多元展演暨复旦大学建校一百二十周年校庆”学术工作坊,于复旦大学附属中学徐汇分校举行。工作坊聚焦大学制度 、学术传统、知识生产及思想传承等方面展开了激烈的讨论。与会…