OpenAI又开源了:推出两个能在笔记本和手机上运行的开源模型

article/2025/8/12 5:07:17

当地时间8月5日,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,性能堪比o4-mini和o3-mini,可在高端笔记本和手机上运行。

OpenAI重新拥抱开源,该公司表示,发布开源系统的部分原因是,一些企业和个人更倾向于在自有计算机硬件上运行这类技术。“开源模型与我们的托管模型形成互补,为开发者提供了更丰富的工具选择。”这有助于加速推进AI前沿研究,降低新兴市场、资源受限行业及小型组织的使用门槛。

OpenAI总裁、创始人之一的格雷格·布罗克曼(Greg Brockman)说,“如果我们提供一款模型,人们就会用我们的技术。他们会依赖我们实现下一次突破。他们会给我们反馈、提供数据,以及改进模型所需的各种信息。这有助于我们取得进一步的进展。”

推出开源模型,可在手机运行

gpt-oss模型是OpenAI自2019年推出GPT-2以来发布的首批开源权重语言模型。OpenAI表示,gpt-oss-120b与gpt-oss-20b突破开源权重推理模型的边界,在推理任务上的表现优于同规模开源模型,能以低成本实现实际应用性能,经过优化可在消费级硬件上高效部署。模型训练过程结合了强化学习技术,并借鉴了OpenAI的o3和其他前沿内部模型。

gpt-oss模型使用预训练和后训练技术,注重推理能力、效率以及在各种部署环境中的实际可用性。每个模型都基于Transformer,利用混合专家(MoE)技术减少处理输入所需的激活参数数量。gpt-oss-120b每token激活51亿参数,gpt-oss-20b每token激活36亿参数,两款模型的总参数分别为1170亿和210亿。它们采用交替的密集型和局部带状稀疏注意力模式,类似于GPT-3。使用旋转位置编码(RoPE),支持长达128k上下文长度。两款开源模型支持低、中、高三种推理强度,可在延迟和性能之间权衡,开发者只需在系统消息中用一句话就能设置推理强度。

OpenAI CEO山姆·奥特曼表示,gpt-oss的性能堪比o4-mini,而且能在高端笔记本上运行,更小的版本能在手机上运行。“不久的将来,会有一种比你认识的最聪明的人还要智能的东西,在你口袋里的设备上运行,随时随地帮你解决各种问题。这真的是一件非同凡响的事。”

gpt-oss-120b与gpt-oss-20b在竞赛数学方面的性能。

gpt-oss-120b与gpt-oss-20b在竞赛编程方面的性能。

gpt-oss-120b模型在核心推理基准测试上与OpenAI o4-mini几乎持平,能在单张80GB GPU上高效运行。在竞赛编程(Codeforces)、通用问题解决(MMLU和HLE)以及工具调用(TauBench)方面,gpt-oss-120b的表现优于OpenAI o3-mini,达到或超过了OpenAI o4-mini。在健康相关查询和竞赛数学方面,它的表现甚至比o4-mini更好。gpt-oss-20b模型在常见基准测试中的结果与OpenAI o3-mini相当,甚至在竞赛数学和健康相关查询方面的表现甚至超过了o3-mini,仅需16GB内存即可在边端设备上运行。

OpenAI为何重新拥抱开源

三年前,OpenAI推出ChatGPT并引发人工智能热潮,其后,OpenAI的技术大多处于保密状态。其他公司则通过“开源”共享技术,抢占OpenAI的市场份额。尤其是DeepSeek的出现,在全球范围内掀起了新的开源浪潮。如今,OpenAI重新拥抱开源,希望借此平衡竞争环境,确保企业和其他软件开发者继续使用其技术。OpenAI表示,发布开源系统的部分原因是,一些企业和个人更倾向于在自有计算机硬件上运行这类技术。

“开源模型与我们的托管模型形成互补,为开发者提供了更丰富的工具选择。”OpenAI表示,这有助于加速推进前沿研究,迸发创新活力,在各类应用场景中推动更安全透明的AI开发。这些开源模型还降低了新兴市场、资源受限行业及小型组织的使用门槛。

近期的研究表明,只要模型未接受过针对思维链对齐的直接监督训练,监控推理模型的思维链就有助于检测不当行为。OpenAI表示,两款gpt-oss模型的思维链均未接受任何直接监督,而这对于监控模型的不当行为、欺骗性输出和滥用风险至关重要。发布两款带有非监督式思维链的开源模型,能为开发者和研究人员提供机会,以便他们研究并构建自己的思维链监控系统。由于思维链可能包含幻觉信息或有害内容,因此开发者不应在其应用中直接向用户展示思维链内容。

为了确保模型的安全性,在预训练阶段,OpenAI过滤掉了与化学、生物、放射和核相关的特定有害数据,在后训练中运用审慎对齐和指令层级技术,教会模型拒绝不安全的提示词,并防御提示词注入攻击。开源模型发布后,攻击者可能会出于恶意目的对模型进行微调。为评估这类风险,OpenAI针对特定的生物学和网络安全数据对模型进行微调,模拟攻击者的方式,为每个领域创建了一个特定领域的 “不拒绝”版本,并通过内外部测试评估这些模型的能力水平。测试表明,即便使用OpenAI行业领先的训练堆栈进行了微调,这些经过恶意微调的模型仍无法达到高能力水平。

OpenAI表示,这些流程标志着开源模型的安全性迈出了有意义的一步,“我们希望这些模型能帮助推动整个行业的安全训练和对齐研究。”为构建更安全的开源生态系统,OpenAI发起奖金50万美元的“红队挑战”,鼓励来自世界各地的研究人员、开发人员和爱好者帮助识别新的安全问题。

开源与闭源的辩论一直存在,企业的策略也在调整。与OpenAI拥抱开源不同,Meta或将转向更保守的闭源软件策略。Meta新近成立超级智能实验室后,实验室一小批高级成员讨论放弃该公司最强大的开源人工智能模型Behemoth,转而开发闭源模型。

    责任编辑:宦艳红
    校对:施鋆

    http://news.xdnf.cn/DQcHZUVAOK

    相关文章

    瑞典首相透露工作中常咨询AI引舆论哗然:我们没投票给ChatGPT

    瑞典首相克里斯特松。视觉中国 资料图人工智能让瑞典首相惹上了麻烦。瑞典首相克里斯特松8月2日在接受瑞典商业报纸《每日工业报》(Dagens Industri)的采访时谈到了人工智能和数字化,并坦然表示在处理国家事务时经常咨询人工智能工具以获得另一个视角下的意见。此番言论迅速…

    假院士阮少平上个月曾履新“院长”,相关机构:会对他进行调查,以维护声誉

    男子“阮少平”打着伪造的“中国科学院院士”旗号,在国内游走多年。8月5日,澎湃新闻从相关方面获悉,“中国科学院院士阮少平”这一身份系伪造。澎湃新闻记者注意到,一所国际教育机构“国际医药大学”今年7月在自己的中文网页发布了一则消息:2025年7月10日,国际医药大学亚…

    镇江市政府原副秘书长赵玉华被查

    据镇江市纪委监委消息,镇江市政府原副秘书长、市高校园区建设指挥部原常务副总指挥赵玉华涉嫌严重违纪违法,目前正接受镇江市纪委监委纪律审查和监察调查。赵玉华 资料图公开资料显示,赵玉华于2013年11月任镇江市政府副秘书长,后兼任镇江市高校园区建设指挥部常务副总指挥…

    景顺长城基金官宣新董事长,股东方“华能系”老将叶才履新

    6000亿级公募新“掌门人”到任。8月6日,景顺长城基金公告称,叶才新任公司董事长,任职日期为2025年8月4日。此前5月29日,李进因任期届满离任景顺长城基金董事长职位,由公司总经理康乐代为履职,代任时间不超过6个月。随着新任董事长到任,景顺长城基金已顺利完成高管交接。…

    《东极岛》导演管虎:让更多人看到中国人的善良与血性

    “业界同行都知道,只要‘沾水’的电影都特别难拍。可重复自己(之前的拍摄类型)是件挺没劲的事儿,这种技术上的挑战特别吸引我。”在《东极岛》首映礼现场,导演管虎表示,“但最重要的还是电影展现的那批渔民,和我们一样的普通中国人,他们在紧急关头体现出的血性不应被遗…

    吓你一夏,惊悚片《死神来了6》《伊甸》将同日上映

    要说哪种类型的电影最适合消夏纳凉,应该非恐怖惊悚片莫属。由于较高的投资回报率以及较少受到流媒体平台的冲击,恐怖惊悚片也是近年最受好莱坞追捧的电影类型。不过,因为这类影片的画面尺度较大,往往被归入限制级,过往一直与国内银幕无缘。然而,这两天《死神来了:血脉诅…

    AMD二季度“增收不增利”,美芯片销售禁令致数据中心业务营收不及预期

    芯片巨头超威半导体公司(AMD)二季度营收超预期,但未能充分展现出在AI(人工智能)芯片领域的竞争力。当地时间8月5日美股盘后,AMD公布了截至2025年6月30日的第二季度业绩,报告期间公司营收达到76.85亿美元,同比增长32%,高于市场预期的74亿美元;美国通用会计准则下(GAA…

    王东杰评《程允亨的十九世纪》︱每个人都在风中摇摆

    《程允亨的十九世纪:一个徽州乡民的生活世界及其变迁》,刘永华著,生活读书新知三联书店,2024年10月版微观史有何意义?一种最常见的辩护方式,是把考察对象当作某一类事物的代表,微观史因而便是一种“解剖麻雀”的工作。法国历史学家拉杜里在《蒙塔尤:1294-1324年奥克西坦…

    民俗学的创新探索之作——简评《神交:纽约哥伦比亚大学“中国纸神专藏”研究》

    《神交:纽约哥伦比亚大学“中国纸神专藏”研究》,李明洁著,商务印书馆,2025年6月版李明洁教授的新著《神交:纽约哥伦比亚大学“中国纸神专藏”研究》(商务印书馆,2025年6月)出版了,这是一本在多学科发生影响的书。6月27日在该书出版研讨会上,复旦大学李天刚教授说,这…

    美国中东问题特使飞抵莫斯科

    美国中东问题特使(资料图)总台记者当地时间8月6日获悉,消息人士称,美国中东问题特使威特科夫已经抵达俄罗斯,俄罗斯直接投资基金总裁德米特里耶夫在莫斯科机场迎接。此前,塔斯社援引俄美消息人士的话报道称,威特科夫将于8月6日访问俄罗斯。而特朗普已将8月8日设定为“最…

    一图读懂|推动具身智能产业发展,上海如何发力

    澎湃新闻(www.thepaper.cn)记者8月6日从上海市经信委获悉,《上海市具身智能产业发展实施方案》近日正式印发。《实施方案》的主要目标是到2027年,实现具身模型、具身语料等方面核心算法与技术突破不少于20项,建设不少于4个具身智能高质量孵化器,实现百家行业骨干企业集聚…

    马上评|这样的交易,该被“追赃”吗

    据澎湃新闻报道,上海市民陈先生在闲鱼上出售自己以前购买的黄金手镯手链等,在和扮成买家的涉诈人员线下交易后,自己的收款账户被冻结,此后被河南新蔡警方划扣8万元。陈先生投诉后,新蔡警方回复称,陈先生系被犯罪分子利用其账户洗钱,“7月24日对其账户涉案资金划扣给受害…

    太平鸟旧款服装当新款卖?消费者要退一赔三被拒,商家:今年生产的

    近日,消费者周先生向澎湃公众互动平台“服务湃”(https://tousu.thepaper.cn)投诉称,今年7月,他在太平鸟男装官方旗舰店的直播间购入一件新款polo衫,但经对比发现,这件新款polo衫和他去年在太平鸟线下店铺购买的一件Polo衫一模一样。事后,太平鸟客服也表示周先生购买的…

    投资中国之哈尔滨:五维优势聚冰城,谱写合作新篇章

    哈尔滨幅员面积5.31万平方公里,是国家重要的绿色食品和商品粮基地、老工业基地、对俄合作中心城市、历史文化名城和联合国授予的亚洲唯一世界音乐之城。围绕加快发展新质生产力,蕴含着巨大的发展潜力和合作商机。一是在推进科技成果产业化方面合作前景广阔。哈尔滨有哈工大、…

    总体进度超80%,第二艘国产大型邮轮进入设备调试阶段

    据“浦东发布”微信公众号消息,8月5日,由中国船舶集团旗下上海外高桥造船有限公司建造的第二艘国产大型邮轮H1509船(爱达花城号)实现首台主发电机动车,标志着邮轮建造全面进入设备调试与系统功能验证阶段。截至目前,第二艘国产大型邮轮H1509船项目总体进度超80%。“浦东发…

    言短意长|中小学一定要拦阻假院士于校门之外

    近日,澎湃新闻起底了一个自称“阮少平”的假院士。在各个邀请单位发布的履历信息中,“阮少平”的“光辉”真的是闪瞎了眼睛,以至于我自己都有点责怪自己,这么“厉害”的人为什么我以前完全没有听说过。网络公布的“阮少平”资料。经查,他所谓的中国科学院院士等身份都不存…

    澳门女孩也爱上海的浓油赤酱,沪澳双城合作交流持续深入

    “来了上海发现,上海本帮菜的浓油赤酱居然很合我口味。”不知不觉,澳门女孩汤可蓓已经在上海生活三年了,响油鳝丝是她最喜欢的一道上海菜。汤可蓓目前就读于华东师范大学,也是上海高校澳门学生联合会理事长,如今,约有700名澳门学生在上海高校就读。今年端午节前后,联合会…

    如何重塑对城市的理解,避免城市陷入“规模不经济”困境

    城市,作为人类文明的璀璨结晶,承载着人们生活的点滴、工作的奋斗与梦想的追逐,其演变轨迹、发展规律与内在运行逻辑,始终是社会科学领域经久不衰的研究热点。从经济学视角审视,诸多现实困惑亟待解答:为何有的城市生产率远超其他城市?城市兴起与衰落的根源是什么?为何部…

    截至7月25日以旧换新政策惠及超4.3亿人次,大件家电受青睐

    “两新”是指大规模设备更新和消费品以旧换新。最新统计数据显示,今年上半年,与“两新”密切相关的消费品制造业、装备制造业等投资都实现了快速增长。截至7月25日,以旧换新政策实施以来累计带动相关商品销售额超3万亿元,惠及超4.3亿人次。大件家电越来越受青睐,这是多地家…

    广州遭遇今年最强暴雨过程,为本世纪以来第5强

    据广州市生态与农业气象中心监测,广州8月2日至6日出现今年以来最强暴雨过程,已经达到特别严重影响等级,为8月最强暴雨过程,本世纪以来第5强。责任编辑:张珺澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载