解读|远未达到AGI但是一款好产品的GPT-5,或成为OpenAI的利润引擎

article/2026/2/7 12:54:57

GPT-5终于现身了,这款被OpenAI称为目前“最聪明、最智能”的新旗舰模型减少了幻觉、改善了指令遵循,在视觉推理、智能编程、研究生级科学问题解决等多项能力上,仅需使用OpenAI o3模型50%-80%的输出token,就能实现更优表现。

数字经济学者刘兴亮8日在接受澎湃科技采访时表示,从“选模型”到“模型会选自己”,GPT-5形态进化,OpenAI正聚焦“少折腾菜单,多交付结果”。GPT-5写代码更少废话、走流程更少走神,但在写作质感和AGI跨度上并没有达到他的想象,可以先将其当成“超级实习生”。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

快思慢想研究院院长、原商汤智能产业研究院创始院长田丰则表示,GPT-5专业推理能力更强,幻觉更少,但远未达到AGI,其通用泛化能力不足,多模态能力也并未形成巨大的领先优势。总体来看,GPT-5并未像GPT-3或GPT-3.5那样对人们形成巨大冲击,而是沿着现有方向进一步提升推理能力。不过,GPT-5和GPT-4的最大区别是产品越做越好,新模型将更多承担营收任务。

自动决定“快答”还是“深想”

GPT-5采用一体化系统设计,其中,智能高效的基础模型可以处理大多数问题,深度推理模型GPT-5 Thinking专攻复杂难题,实时路由系统能根据对话类型、问题复杂度、工具需求及用户明确指令,快速决定调用哪个模型。也就是说,GPT-5懂得何时快速响应,何时深入思考以提供专业级答案。

GPT-5的回答速度更快,在基准测试中超越前代模型,在编程、数学、写作、健康、视觉感知等领域达到先进性能。在数学方面,无需工具的情况下,GPT-5在2025年AIME竞赛数学测试中得分94.6%。

GPT-5在AIME竞赛数学中的性能表现。

GPT-5在MMMU(多模态推理评估)中达到84.2%。在真实世界编程方面,GPT-5在SWE-bench Verified测试中得分74.9%,在Aider Polyglot测试中得分88%。而OpenAI o3在SWE-bench Verified测试中得分为69.1%,GPT-4o为30.8%。

在编程能力方面,GPT-5在SWE-bench Verified测试中得分74.9%。

借助GPT-5 Pro的扩展推理能力,它还在GPQA(研究生级别专家推理)测试中创下新纪录,无需工具即可达到88.4%的得分。

HealthBench是OpenAI今年早些时候发布的基于真实场景和医生定义的评估标准。在HealthBench评估中,GPT-5得分显著高于所有前代模型,得分为46.2%,是OpenAI目前最擅长处理健康相关问题的模型。它会主动提出潜在问题,通过提问来提供更有帮助的答案。但它无法替代医疗专业人员,而是可以将其视为一个辅助伙伴,例如帮助用户理解检查结果、在与医生沟通时提出恰当的问题、在做决策时权衡各种选项。

尽管GPT-5的专业推理能力更强了,但田丰表示,这并不意味着它可以快速迁移到开放型任务链条上,GPT-5的泛化推理能力仍有待加强,多模态推理能力也没有形成领先优势。

减少幻觉、改善指令遵循、诚实回答

OpenAI表示,团队在减少幻觉、改善指令遵循和减少奉承方面取得进展。在测试中,GPT-5回应出现事实错误的概率比GPT-4o低约45%;在启用思考功能时,其事实错误率比OpenAI o3低约80%。

在训练过程中,推理模型通常可能会谎报任务完成情况,或对不确定的答案表现得过于自信。但启用思考功能的GPT-5能更诚实地向用户说明自身的行动与能力范围,尤其针对那些不可能完成、描述不充分或缺乏关键工具支持的任务。

为测试这一点,OpenAI从多模态基准测试测试CharXiv的提示词中移除了所有图像,结果发现OpenAI o3仍有86.7%的概率对不存在的图像给出自信回答,而GPT-5的这一比例仅为9%。因此,在推理过程中,GPT-5能更准确地识别任务何时无法完成,并清晰说明自身局限,回答更诚实。

GPT-5在指令遵循和智能体工具运用的基准测试中性能优异,能执行多步骤任务、协调不同工具并适应语境变化。在实际应用中,它能更好地处理复杂且动态变化的任务。

GPT-5在复杂前端生成和大型代码库调试方面的性能突出,仅凭提示就创建出美观且响应迅速的网站、APP和游戏。

GPT-5创建的游戏。提示词包括界面色彩丰富并带有视差滚动背景;角色采用卡通风格,看起来生动有趣;目标是跳过障碍物,尽可能长时间地存活。

GPT‑5能帮助用户梳理模糊想法,将其转化为富有感染力的文字,更好地协助用户起草和编辑报告、邮件、备忘录等。在自由形式写作中的指令遵循能力测试中,GPT‑5得分99%。

GPT‑5在自由形式写作中的指令遵循能力测试中的表现。

追求更成熟的工程化产品

目前,GPT-5面向所有用户开放,Plus订阅用户可获得更多使用额度,Pro订阅用户则能访问GPT-5 Pro 版本,该版本具备扩展推理能力,可提供更全面精准的回答。

刘兴亮表示,此次GPT-5直接变成ChatGPT默认款,会根据任务自动决定“快答”还是“深想”,也能手动切到“GPT-5 Thinking/Pro”实现更长推理。GPT-5面向所有用户开放,付费用户只是额度更高,同时上线语音升级、学习模式,以及接入了Gmail、日历等“生活插件”,总体来看就是少折腾“菜单”,多交付结果。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

“大家需要的是一个专业化的产品,并不是一个聊天搭子。”田丰表示,OpenAI正朝着典型的产品型公司发展,GPT-5和GPT-4的最大区别是产品越做越好,而医疗、编程等领域对AI产品的要求就是严谨。“OpenAI非常明确,它并不是在科研领域追求AGI,而是在产品领域追求一个更成熟的工程化产品。这和谷歌DeepMind的路完全不一样。”

田丰表示,未来新模型将更多承担营收任务。尽管B端行业是OpenAI的营收重点,但OpenAI期望在C端产品层面打造出AI原生应用的爆款工具,“To C的估值显然要比To B大很多。”

在GPT-5发布前,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,可在高端笔记本和手机上运行。田丰表示,OpenAI的目标一直是在闭源模型领域做到最强,最近的开源是一个“别扭”的举动。OpenAI并未将最强大的基础模型开源,而是开源出端侧小模型,这并不能支撑起开源大生态,开发者无法大范围二次开发。

    责任编辑:宦艳红

    http://news.xdnf.cn/MntHbwqOPO

    相关文章

    上海规范物业管理招投标工作征求意见,将有哪些新变化?

    上海物业管理招投标工作未来或有新变化。澎湃新闻记者注意到,上海市房屋管理局官网8月5日发布《关于进一步规范本市物业管理招投标工作的若干意见(征求意见稿)》,征求意见截止日期为2025年9月4日。值得注意的是,征求意见稿完善了前期物业服务期间变更物业服务企业的情形:…

    新民晚报杯上海赛区落幕: 四十载风雨兼程,珍贵苗圃育新芽

    2025第40届“上海银行”杯新民晚报暑期中学生足球赛上海赛区决赛于8月6日在杨浦区白洋淀足球场落下帷幕。经过为期三天的角逐,来自静安赛区的久隆蕴星A队以及来自黄浦赛区的申花Blue 90队分别问鼎初、高中组冠军。两支队伍将作为上海赛区冠军代表,参加于8月20日开始的全国交流…

    医者说|高龄不再是造血干细胞移植的“绝对禁区”

    2023年,我国共完成异基因造血干细胞移植(allo-HSCT)超过15000例,但65岁及以上老年患者仅占3%。这让不少人疑惑:老年人患血液病,真的不能做异基因移植吗?答案是:并非绝对不能,关键在于科学评估和精准治疗。在65岁及以上接受allo-HSCT的患者中,81%选择单倍体相合移植(…

    “全民健身日”主题活动上海开幕,炎炎夏日里也有冰雪奇缘

    8月8日,一年一度的“全民健身日”再度到来。而在炎热的酷暑中,运动也能拥有一丝清凉。当天上午,“全民健身日”主题活动全国主会场(上海)系列活动暨2025全国大众欢乐冰雪周启动仪式在普陀冰上运动中心举行,冰雪运动也成了夏日运动的新选择。与此同时,为期四周的体育消费…

    国防部:坚决反对美台开展任何形式的官方往来

    今天下午,国防部新闻发言人蒋斌就近期涉军问题发布消息。有消息称,美参议院军委会主席近期可能率国会代表团窜访台湾,如成行,这可能成为2016年以来担任该职务的议员首次窜台。对此,发言人表示,坚决反对美台开展任何形式的官方往来。国防部新闻发言人 蒋斌:世界上只有一个…

    南昌马拉松赛事定档11月9日开跑,沿用“一江两岸”特色路线

    备受社会关注的南昌马拉松赛事,又有了新消息。8月8日,澎湃新闻(www.thepaper.cn)记者从2025南昌马拉松赛事发布仪式获悉,由江西省体育局、南昌市人民政府主办的2025南昌马拉松赛事,定于11月9日7:30在八一广场鸣枪开跑。赛事将继续沿用南昌“一江两岸”特色路线,赛事预报…

    特斯拉被曝解散超算团队转向外部合作,马斯克:分散资源毫无意义

    特斯拉在人工智能战略上迎来重大转向——从强调内部全栈自研,走向与算力供应商高度协作。据外媒8月7日报道,特斯拉已决定解散其内部的Dojo超级计算机团队。这一团队原本负责构建特斯拉自研的高性能计算平台,用于训练自动驾驶系统和人工智能模型。相关专业人才也正在流失。消…

    财通证券新总经理人选出炉,原浙江省担保集团董事长应朝晖获提名

    空悬11个月后,财通证券股份有限公司(下称“财通证券”,601108)新总经理人选出炉。8月7日晚间,财通证券发布《关于收到总经理提名人选文件的公告》称,公司收到中共浙江省委相关文件,决定应朝晖任公司党委副书记,提名应朝晖为公司总经理人选。“公司将按照相关法律、行政…

    河南省委政法委常务副书记袁永新转任省人大法制委分党组书记

    近日,河南人大网“法制委”栏目更新信息显示,袁永新现已担任河南省人大法制委分党组书记。此前,袁永新担任河南省委政法委常务副书记、省法学会党组书记。公开资料显示,袁永新,1965年2月生,河南濮阳县人,中央党校研究生学历,哲学硕士,中共党员。他曾任洛阳市委副书记、…

    A股午后转为弱势震荡,三大股指小幅低收:半导体回调,两市成交1.7万亿元

    李晶昀 AI图A股三大股指8月8日集体小幅低开。早盘两市探底回升,午市三大股指转涨。午后市场转为弱势震荡,三大股指最终小幅低收。从盘面上看,AI应用、半导体、PEEK材料、机器人概念股回调,新疆振兴、超级水电站、西部大基建、光伏、锂矿、创新药、稳定币题材活跃。至收盘,…

    讲座预告|地缘政治下的资本布局与出海战略

    光影弄堂琵琶声里——听老马与小路解码上海影视里的烟火与腔调主讲人:马尚龙(中国作家协会会员)、王路(上海《旅游时报》社副总编)时间:2025年8月9日(周六)10:00-11:30主办:浦东图书馆参与方式:上海浦东图书馆2号报告厅,扫码报名致敬经典 传承创新——上博东馆中国古…

    从触碰“红线”到守住“底线”,明星依法合规纳税才是正道

    近期,演员刘晓庆被实名举报涉嫌税收违法一事引发社会关注。从国家税务总局上海市税务局第四稽查局情况通报来看,针对举报涉及的上海弈熙文化传媒中心及刘晓庆个人,该局依法进行了核查,未发现举报所反映的涉税问题。回溯2002年,当年刘晓庆偷税案轰动一时,其因涉嫌偷税罪被…

    穿书、系统、重生、无限流的创新与套路

    随着穿越在网文和影视剧中的大量使用,它已经成为一个普遍性的手法。穿越也需要推陈出新才能不断吸引读者。时下穿书、系统、重生、无限流等叙事手法开始盛行,严格意义上,这几种都与穿越有着密切的联系。穿越可以是穿越到某个具体的历史时空,如穿越到明朝清朝等;也可以是穿…

    抗战回望41︱《四十七天衡阳保卫战》:“一寸山河一滴血”

    今年是抗日战争胜利暨世界反法西斯战争胜利80周年,澎湃新闻私家历史与抗战文献数据平台合作,推出“抗战回望”系列,选取抗战期间的报纸、图书、日记等史料加以介绍,希冀带领读者前往历史现场,触碰抗战时中国军民的精神与生活。1944年1月24日,日军大本营下达一号作战命令和…

    中共党史研究|五卅前后上海工人运动中的同盟怠工研究

    五卅运动是中国近代工人运动的高潮,也标志着大革命高潮的到来。经典工运史研究较多关注近代中国工人的生活与工作、组织与运动,论证工人阶级意识的形成过程;新工运史则结合社会科学视角,辨析工人运动的主体,关注工人与资本家、政党的互动,展现复杂的社会因素对工运的影响…

    科技赋能河湖监管,福建推进河湖库一体化监测感知体系建设

    从人工看到天眼观,从拼体力到拼算力,从间断巡到实时查,这些改变离不开科技赋能。近年来,福建持续深化科技创新与河湖治理深度融合,为守护八闽河湖提供坚实支撑,并为全国河湖库一体化监测感知体系建设贡献了“福建智慧”。福建省创新建立“天上看、地上查、网上管”的“天…

    硅谷AI人才战的最终赢家?Anthropic吸引力占优,远高于Meta和谷歌

    美国AI独角兽Anthropic。视觉中国 资料图在硅谷愈发激烈的AI(人工智能)人才争夺战中,美国AI独角兽Anthropic成功保持了对员工的吸引力。近日,据外媒报道,风险投资公司SignalFire的最新研究表明,Anthropic工程团队的扩张速度远超其竞争对手,聘用员工的速度是流失速度的2.…

    老伯“路易号”前捡名牌包,向失主要5万元?警方:系摆拍,相关人员已被罚

    近日,有网传视频显示:一位老伯在“路易号”巨轮前捡到名牌包,“失主”索要时却开价5万元才肯归还,讨价还价后老伯在获得1000元后将包交还给女子。8月8日,澎湃新闻(www.thepaper.cn)记者从上海静安警方获悉,经调查,该视频实为恶意虚假摆拍,涉案账号为吸引流量,故意编…

    韩“金建希特检组”:尹锡悦拘捕令失效,将探讨直接起诉方案

    韩国负责调查前总统尹锡悦夫人金建希相关案件的“金建希特检组”当地时间8日通报,首尔中央地方法院签发的对尹锡悦的拘捕令当天失效,将不再考虑申请拘捕令,将探讨尽快对其提出起诉的方案。责任编辑:刘雯图片编辑:乐浴峰澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载…

    宝马iX3行驶中安全气囊爆开,检测报告称并排客车爆胎导致

    车主陈女士近日驾驶宝马iX3在高速路上行驶时安全气囊突然爆开,引发了其对该车质量的质疑。华晨宝马汽车有限公司北京分公司出具检测报告称,安全气囊触发的原因为车辆右侧安全气囊传感器检测到巨大的冲击波,源于并排行驶的大客车爆胎导致。未发现车辆被动安全系统存在相关技术…