ChatGPT智能体上线,奥特曼:感受到AGI的瞬间,但风险不可忽视

article/2025/7/18 11:06:25

当地时间7月17日,OpenAI推出ChatGPT智能体(ChatGPT agent),整合早期三项突破性进展,让具备思考与行动能力的智能体连接研究与实践。

ChatGPT智能体可以分析竞争对手并制作幻灯片,也可以计划并采购4人份早餐的食材。OpenAI CEO山姆·奥特曼表示,看着ChatGPT智能体借助计算机完成复杂任务,对他来说是一个“感受通用人工智能(AGI)”的瞬间,“那种看着计算机思考、规划并执行任务的感觉确实与众不同。”

不过他也提到,ChatGPT智能体的潜在风险也不容忽视,“如果向家人解释这款产品,我会说它处于技术前沿,尚属试验阶段。这是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用于高风险场景或涉及大量个人信息的场合。”

具备思考与行动能力,用户可随时中断任务

如今的ChatGPT具备思考与行动能力,能主动从一系列工具库中选择合适工具,为用户从头到尾处理复杂任务。例如它可以查看日程表并结合近期新闻为用户简要介绍即将到来的客户会议、分析三家竞争对手并制作幻灯片。ChatGPT会智能浏览网站、筛选结果、在需要时提示用户安全登录、运行代码、开展分析,甚至生成可编辑的幻灯片和电子表格来汇总其研究成果。

它能帮助用户规划并预订旅行行程、设计并安排整场晚宴、计划并采购4人份早餐的食材。它还能借助ChatGPT连接器让用户关联Gmail、Github等应用,这样就能找到与用户提示词相关的信息并用于回应。用户也可以通过接管浏览器在任意网站登录,从而让它在研究与任务执行中探索得更深、范围更广。总之,它可以在访问和交互网页信息中选择最优路径、高效完成任务。

ChatGPT可以通过自身虚拟计算机执行这些任务,在推理与行动之间流畅切换,根据用户的指令处理复杂流程。最重要的是,控制权始终在用户手中。ChatGPT在执行重要操作前会请求许可,用户随时可以中断任务、接管浏览器或停止任务。

OpenAI表示,这些新功能的核心是一套统一的智能体系统。它整合了早期三项突破性进展的优势,即Operator智能体的网站交互能力、深度研究(deep research)智能体的信息整合能力以及ChatGPT本身的智能与流畅对话能力。

此前,Operator与深度研究各自具备独特优势,Operator能够在网页上滚动、点击和输入,深度研究则擅长分析与总结信息。两者的优势场景各有侧重,Operator无法深入分析或撰写详细报告,深度研究则无法与网站交互以优化结果,也无法访问需要用户身份验证的内容。因此,OpenAI将两者的优势融合在一起。

基准测试表现优异,潜在风险不容忽视

目前,ChatGPT智能体在基准测试中的性能表现优异。在“人类的最后考试”(Humanity’s Last Exam)这项通过广泛学科的专家级问题评估AI性能的测试中,ChatGPT智能体取得41.6的“单次通过率”(Pass@1 SOTA)新纪录。由于智能体动态规划并自主选择工具,面对同一任务时可在不同运行过程中采用多样解法,因此OpenAI通过并行策略扩展测试时,智能体得分进一步提升至44.4。

ChatGPT智能体在“人类的最后考试”中的表现。

FrontierMath是目前已知难度最高的数学基准测试,以未发表的新颖问题为特色,即便是专业数学家往往也需要数小时乃至数天解出。在该测试中,通过终端执行代码等工具,ChatGPT智能体的准确率达到27.4%,大幅超越以往的各类模型。

DSBench旨在评估智能体处理涵盖数据分析与建模的真实数据科学任务的能力。ChatGPT智能体在该测试中的表现显著超越人类水平。例如在DSBench的数据分析测试中,人类得分64.1%,ChatGPT智能体得分89.9%。

ChatGPT智能体在DSBench的数据分析测试中的表现。

即日起,Pro、Plus及Team用户可在任何对话的任意环节,选择“智能体模式”,直接激活ChatGPT的智能体功能。不过,OpenAI表示,尽管ChatGPT智能体已是处理复杂任务的强大工具,但今天的发布只是一个开始。OpenAI将持续迭代,定期推出重大改进,让它逐渐具备更强能力,为更多人提供更实用的帮助。

奥特曼也表示,尽管这款产品的实用性显著,但潜在风险也不容忽视。OpenAI内置了大量安全防护机制和警示功能,并从鲁棒训练、系统防护到用户控制部署了比以往任何时候都更全面的风险缓解措施,但无法预见所有可能的情况。本着迭代部署的原则,OpenAI会向用户发出充分警示,同时允许用户在谨慎考量后自主决定是否采取行动。“如果向家人解释这款产品,我会说它处于技术前沿,尚属试验阶段。这是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用于高风险场景或涉及大量个人信息的场合。”

    责任编辑:宦艳红
    图片编辑:沈轲
    校对:张亮亮

    http://news.xdnf.cn/jgXfgRlaIE

    相关文章

    纪念|“21世纪最重要的摄影师”萨尔加多

    巴西摄影师塞巴斯提奥萨尔加多(Sebastiao Salgado, 1944-2025)曾被称为“21世纪最重要的摄影师”,他走遍世界最遥远的角落,见证过最黑暗的荒凉,用镜头记录人类苦难与自然史诗。从记录巴西塞拉佩拉露天金矿到扑灭科威特油田大火的油田工,从埃塞俄比亚饥民到卢旺达种族大屠…

    一周文化讲座|法律、社会与女性:《红楼梦》的另一种读法

    北京|在不确定的世界里安顿自己——《哲学家的最后一课》分享会时间:7月19日(周六)15:00地点:朝阳区东三环北路27号嘉铭中心B1层中信书店嘉宾:刘畅(中国人民大学哲学院副教授)、解亦鸿(记者)、李雷(北京新闻广播主持人)2024年8月1日,中国人民大学哲学院教授朱锐在…

    临床急需药品临时进口,5岁难治性白血病患儿在沪重获希望

    7月18日,澎湃新闻记者从上海交通大学医学院附属上海儿童医学中心获悉,近日,在国家药品监督管理局和上海市药品监督管理局的支持下,该中心张江院区成功为一名5岁难治性急性髓系白血病患儿完成了上海首例通过临床急需药品临时进口通道获批的吉妥珠单抗(Mylotarg)治疗。这一…

    AI能力新高度!OpenAI发布ChatGPT智能体:能自主选择工具完成任务

    ChatGPT可以自主调用电脑资源执行任务了。当地时间7月17日,人工智能(AI)巨头OpenAI推出ChatGPT智能体(Agent)系统,OpenAI CEO山姆奥特曼(Sam Altman)和四位负责人进行了25分钟的直播。据介绍,这是一套融合Operator远程浏览器执行能力、Deep Research网络信息整合技术以…

    言短意长|《亮剑》为何成为我复看次数最多的电视剧

    时值抗战胜利80周年,今年7月至9月,《亮剑》《悬崖》《闯关东》等一批经典作品将在“重温经典”频道播出。消息一出即登微博热搜,网友留言又掀起了一波回忆。《亮剑》是我这些年来复看次数最多的电视剧,没有之一。每一次当我沮丧的时候、低迷的时候,就会看一遍电视剧或者听…

    新片|胡歌主演电影《三滴血》,定档今年11月15日

    《三滴血》预告片(01:07)7月18日凌晨3时22分,胡歌主演的电影《三滴血》宣布将于今年11月15日公映。胡歌微博截图本片由电影《祝你幸福!》的导演康博编剧和执导,胡歌、文淇、高子淇、闫妮、宋佳等主演。目前公布的剧情梗概为:三个素不相识的人却被命运交织在一起——善恶难辨…

    《穿越百年中东》:充满回忆的岁月

    董曦阳告诉我《穿越百年中东》的再版已进入流程,叮嘱我写一个新的后记。接到任务后我陷入了重重的回忆之中。严格来说,《穿越百年中东》是第一本给我带来一定知名度的书,在它之前,我出版了小说《告别香巴拉》、历史游记类作品“亚洲三部曲”,但作为新人都显得不温不火,关…

    人工智能×外语教育:首届基础教育阶段智能外语教育论坛召开

    2025年7月12日,“新课程新教材新技术——首届基础教育阶段智能外语教育论坛”在上海华东师范大学拉开帷幕。本届论坛由华东师范大学外语学院主办,人民教育出版社协办,中国教育学会外语教学专业委员会及《外语教学理论与实践》《中小学英语教学与研究》期刊支持。随着人工智能…

    会议观察|2025国际中世纪大会的中国视角

    2025年7月7日至10日,第三十二届国际中世纪大会(International Medieval Congress)在英国利兹大学举行。此次大会以“学习的世界”(Worlds of Learning)为主题,共有来自60多个国家的2400多名学者参会,共包含722组专题报告与圆桌讨论。此次大会上,中国学界第二次以有组织…

    释新闻|小腿出现肿胀,特朗普患上的静脉疾病是什么?

    据新华社报道,美国白宫新闻秘书莱维特7月17日表示,总统特朗普近日出现腿部肿胀,并被诊断患有一种静脉疾病。当地时间2025年7月16日,美国华盛顿特区,白宫东厅,美国总统特朗普出席“停止所有致命芬太尼贩运法案”签署仪式,其手部出现变色。视觉中国 图莱维特当天在记者会上…

    观察|印尼在东盟国家中获美国较低关税,交易式外交达成“不良先例”?

    印尼在美国 “对等关税”新缓冲期8月1日前完成谈判,成为英国、越南之后又一代表国家。美国总统特朗普和印尼总统普拉博沃通过电话会谈达成的这一协议,令印尼各界有喜有忧,对全球贸易格局的影响也引发争议。当地时间2025年7月16日,印度尼西亚雅加达,由印尼国有企业PT Pelin…

    提前完成目标!“十四五”以来累计吸收外资超7000亿美元

    在国务院新闻办今天举行的“高质量完成‘十四五’规划”系列主题新闻发布会上,商务部有关负责人表示,“十四五”以来,我国外贸顶住压力、展现韧性,货物贸易稳居全球第一,出口、进口国际市场份额稳定在14%和10%以上。服务贸易规模稳居全球第二。外资质量提升,“十四五”以…

    核电进入建设高峰期,核电厂建造、运行如何确保在“框”里?

    在山东胶东半岛南部,国家三代核电自主化依托项目海阳核电1、2号机组已分别于2018年10月22日和2019年1月9日投入商运。该项目在核电综合利用上推出了 “暖核一号”核能供热工程,上一个采暖季,毗邻的乳山市已经实现了“零碳”供暖。7月17日,澎湃新闻(www.thepaper.cn)跟随生…

    司法行政何为 | 谢又生:在提升行政执法监督实效上下功夫

    【编者按】行政执法是行政机关履行政府职能、管理经济社会事务的重要方式。党的二十届三中全会通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提出,深化行政执法体制改革,完善基层综合执法体制机制,健全行政执法监督体制机制。2024年,中共中央办公厅、…

    普京:欧洲放弃俄天然气对其工业造成负面影响

    17日,俄罗斯总统普京在接受采访时表示,欧洲放弃俄罗斯天然气的决定对欧洲工业造成了负面影响。此外,俄罗斯媒体报道称,欧盟5月份对俄石油的进口交易额创下三个月新高,这显示部分欧盟成员国对俄石油仍有依赖。普京当天会见俄罗斯化肥生产商协会主席时指出,欧洲放弃俄罗斯天…

    尹锡悦抵达首尔中央地方法院,将出席拘留适当性审查

    韩国首尔中央地方法院(资料图)总台记者获悉,当地时间18日上午9时左右,韩国前总统尹锡悦抵达首尔中央地方法院,准备出席定于当地时间10时15分开始举行的拘留适当性审查。当天,尹锡悦乘坐韩国法务部矫正本部的护送车进入首尔中央地方法院内,在法院内的拘留所等待约一小时后…

    2025上海十大动漫IP评选,大众投票开启

    2025上海十大动漫IP评选活动由上海市文化和旅游局指导,澎湃新闻、上海市动漫行业协会主办。本活动旨在挖掘本土优质动漫IP,讲好中国故事,提升上海城市形象,助力上海打造“中国入境旅游第一站”;鼓励原创精品创作生产,促进数字内容商业转化,推进动漫产业集聚发展和生态构…

    特朗普否认致信爱泼斯坦,称《华尔街日报》刊登“伪造信件”

    当地时间7月17日,美国总统特朗普在其社交媒体“真实社交”发文怒斥《华尔街日报》刊登其致爱泼斯坦的“伪造信件”,称该报道“虚假、恶意、诽谤”,并表示将起诉《华尔街日报》、新闻集团及鲁珀特默多克本人。他强调,已亲自警告默多克与主编艾玛塔克该信为伪造,但对方仍执意…

    良品铺子实控人拟变更为武汉市国资委:涉资近15亿元,创始人将继续管理日常经营

    良品铺子 视觉中国 资料图良品铺子实控人拟变更为武汉市国资委,股票今日(7月18日)复牌。7月17日晚,零食品牌良品铺子股份有限公司(良品铺子,603719)发布公告,公司控股股东宁波汉意及其一致行动人良品投资与武汉长江国际贸易集团有限公司签署了股份转让协议。宁波汉意约…

    台风蓝色预警:今年第6号台风“韦帕”生成,趋向粤琼沿海

    中央气象台7月18日6时发布台风蓝色预警:菲律宾以东洋面的热带低压今天(7月18日)凌晨加强为今年第6号台风“韦帕”(热带风暴级;英文名称:Wipha;名字来源:泰国;名称意义:女士名字),今天早晨5点钟其中心位于菲律宾马尼拉东北方向约505公里的洋面上,就是北纬17.4度、东…