DeepSeek发布新版本模型:优化推理效率,API降价超50%

article/2025/11/2 18:14:59

DeepSeek发布新版本模型,调用API成本降低超50%。

9月29日,DeepSeek正式发布DeepSeek-V3.2-Exp模型,这是一个实验性(Experimental)的版本。

值得注意的是,此前有不少科技博主发现,DeepSeek-V3.2新模型已上传至其HuggingFace官方页面,随后被删除,此后DeepSeek正式公告新版本的推出。

据DeepSeek介绍,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行探索性优化和验证。目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。

据了解,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。为严谨评估引入稀疏注意力带来的影响,把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。

在新模型的研究过程中,需要设计和实现很多新的GPU算子,使用高级语言TileLang进行快速原型开发,以支持更深入的探索。在最后阶段,以TileLang作为精度基线,逐步使用底层语言实现更高效的版本。此次开源的主要算子包含TileLang与 CUDA两种版本。

DeepSeek表示,得益于新模型服务成本的大幅降低,官方API价格也相应下调,开发者调用DeepSeek API的成本将降低50%以上。从价格来看,输入缓存命中从0.5元降至0.2元/百万tokens,缓存未命中从4元降至2元/百万tokens,输出由12元降至3元/百万tokens。

除了DeepSeek,国内另一大模型厂商智谱的新一代旗舰模型GLM-4.6也即将发布,目前,在Z.ai官网可以看到,GLM-4.5标识为上一代旗舰模型。

此前9月18日,梁文锋带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。

今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,创始人梁文锋位于署名之列。

《自然》杂志指出,如此总结DeepSeek-R1带来的进步:如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。

DeepSeek的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。DeepSeek-R1模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。

    责任编辑:李跃群
    图片编辑:蒋立冬

    http://news.xdnf.cn/VIWIWFsHJu

    相关文章

    又一位“投研系”高管卸任!易方达基金张清华不再担任副总职务,将专注于投资

    易方达 视觉中国 资料图易方达基金又一位“投研系”副总卸任。9月29日晚间,易方达基金管理有限公司(简称“易方达基金”)发布公告称,因工作调整,张清华不再担任副总经理级高级管理人员职务,将专注于投资管理工作,离任日期为9月29日。年初至今,易方达基金“投研系”副总…

    夜读|父亲的笔记本

    父亲身后留下两个笔记本,一个是1950年代的工作笔记,另一个是1990年代的生活日记——前者是七十多年前的旧物,黑色硬皮,封面上印着志愿军的图像和抗美援朝的字样,扉页印刷着毛主席的肖像和题词;后者是上个世纪八九十年代常见的塑料绿皮笔记本,本子里有几张风景插页。这两…

    战至决胜盘无法坚持比赛,郑钦文止步中网第三轮

    北京时间9月29日,中网公开赛迎来女单第三轮的争夺,中国金花郑钦文与来自捷克的26号种子诺斯科娃隔网相对。经过两盘战斗,去年曾打进中网四强的郑钦文在第三盘0比3落后的情况下退赛,就此无缘本届赛事的16强。郑钦文今年郑钦文遭受伤病困扰,在温网后接受了手肘的手术治疗,中…

    国庆假期上海机场预计保障进出港旅客314万人次,同比增5.6%

    9月29日,澎湃新闻记者从上海机场集团获悉,今年国庆中秋期间(10月1日至8日),上海浦东、虹桥两大机场预计航班量1.9万架次(其中,浦东机场1.3万架次、虹桥机场0.6万架次),日均2366架次,同比增长2.5%;预计保障进出港旅客314.1万人次(其中,浦东机场197.4万人次、虹桥机…

    商务部:电动汽车及电池产业成为中国与北欧国家合作新热点

    9月29日下午,商务部欧洲司副司长王宇鹏在专题新闻发布会上回答媒体记者提问。澎湃新闻记者赵利新 图9月29日下午,商务部在北京召开2025中国—北欧经贸合作论坛专题新闻发布会。商务部欧洲司副司长王宇鹏介绍了中国与北欧国家经贸合作的情况。据数据显示,2024年,中国与北欧五…

    商务部答澎湃:邀请丹麦担任主宾国,彰显两国对深化经贸合作的热切期待

    9月29日下午,商务部欧洲司副司长王宇鹏在专题新闻发布会上回答媒体记者提问。澎湃新闻记者赵利新 图9月29日下午,商务部在北京召开2025中国—北欧经贸合作论坛专题新闻发布会。澎湃新闻记者在现场提问:北欧论坛今年首次设置了主宾国,并邀请丹麦担任主宾国。请谈一谈中丹经贸…

    国庆长假“一头一尾”上海天气较好,中秋节当天雨水相对明显

    上海气象部门表示,国庆中秋假期,上海天气条件总体适宜出游。长假“一头一尾”天气较好。10月2-5日云系较多,降水较弱,气温较常年同期偏高。中秋节当天雨水相对明显。长假后期受冷空气影响,气温有起伏。9月29日夜间到30日白天,上海降水明显,局部累积可达大雨到暴雨,出行…

    张本智和不敌国乒小将一轮游,中国大满贯男单首轮冷门频出

    张本智和。北京时间9月29日,WTT中国大满贯单打正赛首轮比赛,国乒小将陈俊菘迎战日本一哥张本智和,最终张本智和2比3不敌陈俊菘,遭遇“一轮游”。相比张本智和,乒乓球迷对陈俊菘的名字或许更加陌生,这位2005年出生于厦门的国乒小将,5岁开始练习乒乓球,13岁进入福建省队,…

    90岁铁扬:愿为全新时代再做点什么

    日前,刚过完90岁生日的作家、艺术家铁扬携5卷本文集出现在中国现代文学馆新书首发暨研讨会现场。这部《铁扬文集》由作家出版社于今年6月出版,共计87万字,包括散文集《母亲的大碗》《等待一只布谷鸟》、艺术散文与随笔集《大暑记事》、中短篇小说集《美的故事》、长篇小说《…

    6个夜晚的歌剧嘉年华,巴伐利亚国家歌剧院“回响”上海

    巴伐利亚国家歌剧院被誉为“天花板级别”的歌剧院。金秋国庆双节期间,这艘歌剧巨轮将停靠黄浦江畔,在上海大剧院上演“巴伐利亚回响” 歌剧节。10月1日-6日,巴伐利亚国家歌剧院将以350余人的超级阵容,带来3部作品、6场演出:瓦格纳歌剧《漂泊的荷兰人》、威尔第歌剧《奥赛罗…

    建院十年,复旦大学这两个学院为何能取得众多科研成果

    什么样的学院让人甘愿放弃百万年薪的工作,也要毅然加入?2025年9月29日,复旦大学大数据学院、类脑智能科学与技术研究院建院十周年学术大会在张江复旦国际创新中心举行。 复旦大学 供图9月29日,复旦大学大数据学院、类脑智能科学与技术研究院建院十周年学术大会在张江复旦国…

    江西安义:以花为媒,撬动“美丽经济”

    视频来源:安宣(01:26)创意实景花园展、优质园艺植物品种展……9月29日,2025中国(南昌)花园节暨首届南昌园艺展在江西南昌安义开幕。大量优秀园艺设计师、花卉苗木从业者相聚于此,展示最新成果,探讨花园园艺新趋势、新场景。2025中国(南昌)花园节暨首届南昌园艺展开幕式…

    伊藤诚3比1战胜覃予萱,女单首轮“中日对决”国乒2胜1负

    伊藤美诚。北京时间9月29日,WTT中国大满贯单打正赛首轮比赛,国乒小将覃予萱与伊藤美诚相遇,最终经验更为丰富的覃予萱3比1战胜覃予萱,晋级下一轮。覃予萱2006年出生,作为国乒的潜力新星,覃予萱曾在2022年WTT的比赛中横扫张本美和,同年9月斩获亚青赛U19女单冠军。今年8月…

    丽人丽妆实控人黄韬遭前妻起诉,要求过户名下1674.75万股给子女

    丽人丽妆 视觉中国 资料图A股这场“天价离婚”案还未完结。在丽人丽妆(605136.SH)实际控制人黄韬的前妻翁淑华已分得1674.75万股之后,黄韬再次遭到起诉,翁淑华请求将登记在黄韬名下的公司股份中的1674.75万股过户至子女黄逸琪名下。9月29日,丽人丽妆公告称,近日,公司收…

    国庆中秋将至,上海换“新装”迎八方来客

    国庆中秋双节将至,上海换上“新装”迎接八方来客。上海黄浦外滩花墙。 本文图片均为 上海市绿化市容局 图9月29日,澎湃新闻记者从上海市绿化市容局获悉,为营造热烈喜庆、文明祥和的节日氛围,上海全市共打造主题景点75个,布置花坛花境约18万平方米,设置组合容器7.5万余组;…

    个人信息跨境安全管理迎来国家标准,明年3月1日正式实施

    记者今天了解到,市场监管总局(国家标准委)批准发布《数据安全技术 个人信息跨境处理活动安全认证要求》推荐性国家标准,将于2026年3月1日正式实施。该标准由中国网络安全审查认证和市场监管大数据中心牵头编制,是我国个人信息跨境安全管理领域的首项国家标准,规定了跨境处…

    “十一”长假持股还是持币?逾六成私募计划重仓过节,看好科技成长主线

    “十一”长假前倒数第二个交易日,A股三大股指集体收涨。截至9月29日收盘,在券商、保险等大金融板块拉动下,上证指数报收3862.53点,涨0.9%;深成指收涨2.05%;创业板指收涨2.74%。对于即将到来的“十一”长假,私募将保持怎样的仓位水平应对?私募排排网调查结果显示,超过六…

    江苏高速应急车道长假期间将按需开放

    中秋国庆假期临近,江苏高速公路即将迎来出行高峰,预计全省高速公路日均出口流量将达436万至448万辆,同比增长4%-7%;其中10月1日单日出口流量将达到491万至505万辆,将创国庆假期历史峰值。不过,中秋国庆跑江苏高速:堵情一现就“开道”,充电也不要慌了!记者探访高速多个…

    《水做的江南——齐铁偕水墨画学术展系列一》作品研讨会在沪召开

    “诗,即我以诗歌构画;书,即我以书法造画。”正在觉群艺术空间展出的“水做的江南——齐铁偕水墨画学术系列展一”,以一幅幅生动的画面诠释了画者的理念。驻足齐铁偕的现代水墨画作品前,江南田野、渔舟,春花秋叶,村居流水,逸笔草草之下,充满了文人雅士的书卷气息和清雅…

    四川乐山城管执法时掀摊打人?官方回应:店主自己掀翻水果箱,三人阻碍执法被行拘

    9月28日下午,多个四川乐山市中区城管执法人员,在演武街执法的视频在网络上传播,引发关注。视频显示,当天下午,多位执法人员整治一家水果店占道经营时遇到阻碍,多人与执法人员发生肢体接触,一男子将水果摊掀翻在地。视频内有人反复呼喊:“城管打人了”。9月28日晚,市中…