首个接受同行评审的大语言模型！DeepSeek-R1论文登《自然》封面

2025-09-18 来源：泛电竞编辑：佚名标签： DeepSeek 自然

文章导读: 9月18日，梁文锋带着DeepSeek-R1的研究，登上最新一期国际顶级期刊《自然》（Nature）封面。今年1月份，国产大模型公司深度求索（DeepSeek）在预印本平台arxiv公布论文《DeepSeek-R1: In

9月18日，梁文锋带着DeepSeek-R1的研究，登上最新一期国际顶级期刊《自然》（Nature）封面。

今年1月份，国产大模型公司深度求索（DeepSeek）在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，创始人梁文锋位于署名之列。

《自然》杂志指出，如此总结DeepSeek-R1带来的进步：如果训练出的大模型能够规划解决问题所需的步骤，那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似，但这对人工智能有极大挑战，需要人工干预来添加标签和注释。

DeepSeek的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型，并使其进行推理。DeepSeek-R1模型采用强化学习进行训练。在这种学习中，模型正确解答数学问题时会获得高分奖励，答错则会受到惩罚。

最终它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思，在给出新问题的答案之前检查其性能，从而提高其在编程和研究生水平科学问题上的表现。

在《自然》的Editorial（社论）指出，大型语言模型需要同行评审。《自然》认为，大型语言模型（LLMs）正在迅速颠覆人类获取知识的方式，但最广泛使用的这些模型尚未在研究期刊中接受独立同行评审。同行评审有助于澄清LLMs的工作原理，并帮助评估它们是否真正实现了其宣称的功能。“这一情况随着自然杂志发表DeepSeek-R1模型细节而改变。”

《自然》指出，自1月在Hugging Face上发布R1以来，DeepSeek-R1已夺得该平台复杂问题解决类模型下载量冠军。现在，该模型已由八位专家评审，以评估其工作的原创性、方法论和稳健性。该论文将与审稿人报告和作者回应一同发表。“这一切都是AI行业迈向透明度和可重复性的可喜一步”。

“依赖独立研究者的同行评审是AI行业回击炒作的一种方式。鉴于这项技术已变得如此普遍，无法验证的声明对社会构成了真正的风险。我们希望，出于这个原因，更多AI公司将提交其模型接受评审。”《自然》写道。

论文摘要中表示，推理能力作为人类智能的基石，能够支持从数学问题求解、逻辑演绎到程序编写等复杂认知任务。人工智能领域的最新进展表明，当大型语言模型（LLMs）的规模达到足够程度时，能够展现出包括推理能力在内的涌现性特征，然而，要在预训练阶段实现这类能力，通常需要耗费大量计算资源。

这项研究旨在探索大型语言模型在强化学习（RL）框架下通过自进化发展推理能力的潜力，同时最大限度减少对人工标注的依赖。

具体而言，以DeepSeek-V3Base模型为基础，采用群体相对策略优化（GRPO）作为强化学习框架。奖励信号仅依据最终预测结果与真实答案的一致性来确定，不对推理过程本身施加任何约束。在解决推理问题时，该模型倾向于生成更长的响应内容，在每个响应中融入验证、反思以及对多种替代方法的探索。尽管并未明确教授模型如何进行推理，但它通过强化学习成功掌握更优的推理策略。

今年1月20日，中国AI初创公司深度求索（DeepSeek）推出大模型DeepSeek-R1引爆AI行业，作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAIo1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。春节假期后，国内多个行业龙头公司均宣布接入DeepSeek。

伴随AI大模型行业的日新月异，DeepSeek已经更新出R1以外的新版本，但万众期待的R2尚未面世。此前8月21日DeepSeek正式发布DeepSeek-V3.1，称其为“迈向Agent（智能体）时代的第一步”。

据介绍，V3.1包含三大主要变化。首先，V3.1采用混合推理架构，一个模型同时支持思考模式与非思考模式；其次，V3.1具有更高的思考效率，相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短时间内给出答案；另外，V3.1具有更强的Agent能力，通过Post-Training优化，新模型在工具使用与智能体任务中的表现有较大提升。

当时，DeepSeek表示，DeepSeek-V3.1使用UE8M0FP8Scale的参数精度。UE8M0FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片，助力国产算力生态加速建设。相关表态，一度带动国产芯片算力股价迎来飙升。

9月5日，据外媒报道，DeepSeek被曝光正在开发具备更先进的AI智能体相关功能的人工智能模型，目的是与OpenAI等头部科技公司在技术新前沿展开竞争。目前DeepSeek创始人梁文峰计划在今年四季度发布相关智能体产品。

记者向DeepSeek内部人士询问此事真实性，对方未给予明确回复，但并未否认此事。

据外媒援引相关消息称，DeepSeek正在开发的智能体强调自主任务处理能力，与传统聊天机器人不同，智能体能够代表用户在最少指令下完成多步骤复杂任务，并根据历史操作持续学习和改进，减少人工干预需求。

2025年被业界称为“AI智能体元年”。8月26日，国务院印发《关于深入实施“人工智能+”行动的意见》提出，到2027年，率先实现人工智能与6大重点领域广泛深度融合，新一代智能终端、智能体等应用普及率超70%；到2030年，中国人工智能全面赋能高质量发展，新一代智能终端、智能体等应用普及率超90%。

返回首页 返回栏目

头条资讯

再推秋禾房产，字节版“贝壳”呼之欲出？

留言跟帖

近期热点

热门文章

日榜周榜: 1 敦煌网在美爆火！跨境电商板块迎大涨
在美国滥施关税之后，中国跨境电商应用DHgate（敦煌网）突然在美国爆火。公开数据显示，截至北京时间4月15日上午，敦煌网已一跃成为美区App Store排名第二的免费iPhone应用程序，仅次...
2 支付宝消费暴涨！美国游客做贡献，掀起“反向代购”
就在这几天，美国应用商店App出现“异动”，淘宝人气暴涨、下载量上涨，截至昨天，淘宝已冲上了美国应用市场购物类App下载榜第二。而反应更快的美国消费者已经来华&ldqu...
3 美团辟谣“二选一”，京东强调接单自由，外卖之争白热化
4月21日，京东一封《致全体外卖骑手兄弟们的公开信》在社交平台掀起轩然大波，指控竞对平台通过封杀骑手限制跨平台接单，并宣布超时20分钟订单免单等补偿措施。此前，美团已就安徽...
4 全面取消 “仅退款”，反内卷的必然
4月22日，有媒体报道，拼多多、淘宝、抖音、快手、京东等多个电商平台将全面取消“仅退款”，消费者收到货后的退款不退货申请，将由商家自主处理。这意味着，历时四年的&l...
5 比“拼好饭”还便宜的京东外卖，到底想干什么？
打工人最近的快乐，都是京东外卖给的。免运费、大额红包、超时20分钟免单......一顿原价30元+的外卖，到手分分钟比隔壁“拼好饭”还便宜，补贴力度之大让人恍惚梦回十...
6 使用京东软件被封号？外卖柜排他？美团紧急回应：系P图造谣
4月27日消息，今日早间，美团“小团有话说”公众号发布声明，再度对近期传闻进行回应。声明主要对三类传闻进行辟谣，包括“双开App被封号”“外卖柜排他...
7 饿了么放大招，联手淘宝闪购打响狙击战
外卖大战升级。京东和美团在外卖市场打得火热。如今，饿了么也找准时机下场了。4月30日，饿了么宣布进一步加大平台补贴力度，即日起开启“饿补超百亿”大促。针对补贴...
8 茉莉奶白：淘宝闪购开全量后，饿了么订单翻倍
茉莉奶白10万杯、抹茶白兰10万杯、针王苹果9万杯……这是“淘宝闪购”全量上线24小时内，茶饮新秀品牌茉莉奶白热门产品的销售佳绩。据茉莉奶白线上运...
9 时代的眼泪，微软Skype没了
美国当地时间5月5日，在运营22年之后，美国微软公司宣布其旗下的即时通信软件Skype正式停止运营，并推荐用户转移至使用Microsoft Teams免费版软件。据了解，Skype是一款主营海外市...
10 小红书与淘宝天猫为何此时选择牵手？
临近618，淘宝天猫与小红书正式宣布签署战略合作，启动“红猫计划”。官方表示，小红书种草笔记将正式接入外链跳转，用户可一键直达淘宝天猫店铺或商品页。对于两个在各...; 1 淘宝Vision Pro版双11会场正式上线！首个3D沉浸式红包雨来了
10月23日消息，今日，淘宝Vision Pro版双11会场正式上线，支持消费者虚拟逛街、3D购物，还能抢3D沉浸式红包雨。官方介绍，这次的Vision Pro版双11会场有上万款3D商品参与活动，淘宝还...
2 网购下单、朋友圈点赞智谱展示新AI工具可自动操作手机
对着手机说“给老板朋友圈第一条点赞，并写一个彩虹屁评论”，然后把它放在一旁，只见手机屏幕上开始“全自动”操作，从进入微信、找到具体微信联系人、点赞...
3 Android 16 有望引入持续通知功能，类似苹果灵动岛
10 月 27 日消息，据 Android Authority 发现的 Android 15 测试版代码显示，Android 16 可能会带来一项名为“Rich Ongoing Notifications”（丰富持续通知）的新功能，允...
4 为什么小红书上有那么多momo？
经常玩小红书的朋友可能会注意到，有“一个”昵称叫momo的用户分外活跃。在各大评论区几乎都能见到它的身影，有可能回怼你，也可能给你点赞。当你打开搜索栏搜索momo...
5 今年的双11晚会静悄悄，天猫、抖音还在继续，京东拼多多已停办两年
此前被曝今年将不再举办双11晚会的淘宝天猫，11月4日晚在其官方社交平台宣布了“天猫双11疯狂好六夜”定档。这也将是天猫第9年举办双11晚会。据介绍，今年的双11晚...
6 国家撒钱给补贴，今年双十一简直不要太爽。。。
该说不说，今年应该算得上是有史以来战线拉最长的一次双十一，从 10 月中旬各大电商平台陆续开启预热活动开始，到 11 月下旬最后的返场优惠结束，期间各种促销活动一轮接着一轮。...
7 “双十一”爆款解析：从“吃喝”到“玩乐” 宠物“周边”蕴含大商机
宠物沙发、围栏窝、智能喂食器、猫爬架……今年“双十一”，“家有萌宠”的消费者们，一边考虑着因季节变化给“毛孩子”添置新的...
8 今年双11，快递员赚钱了么？
网点负责人表示，揽收时的单票收入是派送收入的2到3倍。 ...
9 淘宝上线“去谈价”功能，电商购物或进入砍价时代
独家获悉，淘宝App已上线“去谈价”功能，位于淘宝App的购物车的商品结算界面。据悉，今年618期间，淘宝官方曾在天猫App中特别推出“天猫AI讲价小助手”，而&ld...
10 马斯克！2.5万亿！
兄弟姐妹们啊，周末消息面比较清淡，简单看一则马斯克的最新消息，他的身家涨至3480亿美元！特斯拉创始人埃隆·马斯克的身家，在周五达到创纪录的3478亿美元（约合2.5万亿元人民...

热门视频

首个接受同行评审的大语言模型！DeepSeek-R1论文登《自然》封面

2025-09-18 来源：泛电竞 编辑：佚名 标签： DeepSeek 自然

2025-09-18 来源：泛电竞编辑：佚名标签： DeepSeek 自然