北斗专访|商汤杨帆:AI在物理世界还有很长的路要走

article/2025/8/12 4:56:35

【编者按】

“星汉灿烂,若出其里。”人工智能迈入闪耀时刻。

4月29日,习近平总书记来到位于徐汇区的上海“模速空间”大模型创新生态社区调研。他指出,人工智能技术加速迭代,正迎来爆发式发展,上海要总结好以大模型产业生态体系孵化人工智能产业等成功经验,加大探索力度,力争在人工智能发展和治理各方面走在前列,产生示范效应。

如今,徐汇区已形成“北斗列阵”+“群星闪耀”的AI生态布局。其中,“北斗七星”由稀宇科技、商汤科技、阶跃星辰、无问芯穹、星纪魅族、特赞科技和斑马智行7家标杆企业构成。

这些企业何以成为“北斗”?它们在人工智能领域有哪些探索和前瞻性的思考?推出“北斗专访”系列报道,通过深度对话,解码标杆企业的AI星辰版图。

近日,商汤又一次引起外界关注。在2025年世界人工智能大会(WAIC)上,商汤不仅发布了新模型,还开辟了新赛道——具身智能,成为其在AI前沿领域的最新布局。

商汤科技联合创始人、执行董事、大装置事业群总裁杨帆在接受专访时表示,无论是商汤2025年完成的“1+X”组织架构调整,还是最近在具身智能、稳定币等赛道的布局,背后的逻辑来源于对AI产业两个发展趋势的观察和回应:

其一,AI正朝着更大规模、更强泛化能力的方向演进,遵循尺度定律(Scaling Law),模型能力持续增强,这是技术层面的长期主线。

其二,AI正加速向细分行业渗透、打穿,实现端到端的深度整合与应用落地。AI作为一个通用工具,用户长期来看还是为价值买单的,AI真正要创造价值,必须跟下游场景形成闭环和产品。

祝碧晨 设计

杨帆说,中国人工智能取得了很大进步,但仍面临商业逻辑、性价比逻辑上的挑战,AI企业需要持续性的盈利能力。他认为,一方面要追求在AI核心技术上的持续突破,另一方面也要寻求在不同细分领域的落地,两者的关系如同大树的树干和树枝。

这两年,虽然AI大模型迭代速度快,但和人们此前想象的并不一样。“GPT4刚出来时,很多人为之惊叹,觉得AGI(通用人工智能)很快要实现了。但实际情况不是这样。”杨帆说,人们看到的,是多模态大模型、AI Agent(智能体)、具身智能以及世界模型等相继面世。

“80后”的杨帆,本硕毕业于清华大学电子工程系,主导建设了商汤超大型人工智能计算中心(AIDC)。在他办公室的书柜上,摆放着家人的照片、孩子的手办和玩偶。在同事眼里,他是一位性格亲和、非常健谈的人。他善于让对谈者放松,也会不动声色地抛出尖锐的观点。

“我觉得人形机器人一定会进入千家万户,但它现在仍面临在真实世界收集数据的难题。”杨帆说,虽然AI在数字世界已取得很大突破,但在物理世界还有很长的路要走。感知、导航和交互,是具身智能的三个核心能力,人形机器人的演进最终要让“身体”和“大脑”实现闭环。

杨帆相信,人工智能基础设施化是必然趋势。过去三次工业革命,使蒸汽机、铁路、电网、互联网等成为基础设施。现如今在AI时代,数据、算力等将会成为新一代基础设施的重要组成。任何技术进步带来的风险都始终存在,但与其担心风险,他认为不如思考能做什么,比如为AI定义规则、文化和价值观。

商汤科技大楼,位于上海徐汇区。

【对话杨帆】

:如今各行各业都谈论AI大模型,感叹其发展速度何其迅猛。作为行内人,你怎么判断当前AI产业的趋势?

杨帆:这几年AI的发展有两个显著趋势,一方面是模型能力持续增强,具备更强的泛化与通用智能,AI在技术上会持续追求规模化,这是一个大趋势。另一方面,AI正加速向细分行业渗透,实现端到端的深度整合与应用落地,包括AI Agent(智能体)也在加快兴起。这背后的逻辑是,AI作为一个通用工具,长期来看用户还是为价值买单的,AI真正要创造价值,就要能跟下游场景形成闭环、形成产品。

这两年AI大模型发展非常快,但有一点需要注意,它的快和两年前人们想象的快是不一样的。GPT4刚出来时,很多人为之惊叹,觉得马上AGI(通用人工智能)很快要实现了。但实际情况却不是这样,我们看到的是多模态大模型、具身智能、AI Agent以及世界模型等,这些出来了。

:从大语言模型,到多模态大模型、具身智能,再到一些细分领域的垂类模型,大模型的概念似乎越来越宽泛了?

杨帆:事实上,国内语言体系和海外略有不同。2022年OpenAI的GPT3.5出来,它本质上是LLM(Large Language Model),即大语言模型。今天我们说的多模态大模型,智能体,或者世界模型,大家都叫大模型的方向,但其实和LLM是不同的体系。都叫大模型也不能说错,因为这是大模型迭代发展的长期趋势。另外,多模态信息感知和处理的能力,是AGI的核心要求,也是从语言模型走向AGI的必由之路。从多模态感知、推理,再到交互,当前多模态智能的演进,正在进一步驱动AI发展。

:商汤是做视觉起家,在计算机视觉领域积累深厚,这会让你们投身多模态大模型领域有不一样的视角吗?今年世界人工智能大会上,商汤在大模型中引入形象思维,成为国内首个采用图文交错思维的商业级大模型,背后有什么技术考虑?

杨帆:语言和视觉是典型的两种模态。语言、文字是对自然信息高度压缩过的一种编码,它的好处是传输效率高,有效信息量大,但同时也会造成原始信息损失。而视频则是另一种模式,它对物理世界有更丰富和完整的呈现,但缺点在于信息的信噪比低,有效信息量小。

人类的日常活动,天然涉及对文本、图像、视频、网页等多模态信息的处理。现在很多人做多模态模型,是把图像、视频、语音等其他模态信息翻译成文本,再灌入模型去思考、处理,然后再将推理后的信息翻译生成出来,转为图像、视频和语音,原因是大语言模型已经成熟,这么做是最简单的。

但在人类的思考中,形象思维和逻辑思维同等重要。所以我们从第一天做多模态模型,就不希望把信息都翻译成文本再推理,我们把信息抽象成一个中间表达,用这个中间态去做推理。要知道信息的图形化表达比纯文本思维链更难,虽然难,但这是我们在做的事。

:最近商汤新开了一个赛道——具身智能。这两年人形机器人很火热,大厂、AI企业纷纷下场,但具身智能“大脑”的研发似乎仍是关键。能否谈谈对具身智能赛道的想法?你觉得未来人形机器人会进入千家万户吗?

杨帆:我们做具身智能,是基于在视觉感知、大装置、大模型等多种技术的长期积累,背后的核心引擎是世界模型,它能为机器人、智能设备赋予感知、视觉导航及多模态交互能力。感知、导航和交互,是具身智能的三大核心能力。

普通人可能对具身智能还不太了解。举个例子,多年前AlphaGo已经战胜了人类围棋冠军,现在大语言模型也能写出漂亮的文章。但是,洗碗叠被、拿件东西这类对人很简单的事情,机器人却做不好。为什么?因为机器人可以在数字世界做很多事情,但在物理世界它的能力仍然有限。具身智能要让机器人的多模态数据同步,感知、意图和行动一致,让身体和大脑实现闭环。这是很难的,你让机器人回办公室取回遗忘的物品,它不仅要识别、拿取物品,还要应对复杂的外界环境,比如与陌生人交流、防范意外等。

我觉得未来人形机器人一定会进入千家万户。为什么打造人形机器人?因为过去几千年来,人类已经按照自己的体型、交互方式等,打造了一个物理世界,包括楼梯、电梯、桌椅、锅碗瓢盆等所有东西。

一个机器人如果只干特定任务,比如做饭或送货,它不需要一定是人形的,比如酒店的机器人已经很普及,并不是人形的。但是当这个机器人越来越通用时,具备了通用功能,那么人形机器人就是最经济、最方便的形态,这让它能更好地融入物理世界。

:智能汽车常被视为初代版的机器人,那人形机器人的进步也会像辅助驾驶那么快吗?

杨帆:人形机器人面临的一个挑战,是很难在真实世界收集数据,而它又需要海量数据反馈和训练。对智能汽车来说,辅助驾驶技术进步很快,因为你可以安排几百辆汽车每天上路测试,通过摄像头、感应器收集真实世界的数据,持续训练和完善它的智能。但你很难安排几百个机器人上街收集数据。即使没有AI,汽车照样在路上跑,但没有AI,人形机器人就不会上街。人形机器人是一个原生的智能设备,目前它还需要更多真实世界的训练和反馈才能持续进步。这也是我们现在非常重视世界模型的原因,对现实世界环境进行仿真训练。

商汤科技大楼内景。

:在我们的采访中,辅助驾驶、AI眼镜、智能座舱等企业都很重视AI在端侧的部署,端侧部署为什么很重要?

杨帆:AI在端侧的部署,对很多具体场景下的应用是很重要的。在端侧部署AI,打通端到端的能力,意味着数据采集、感知、推理、决策、反馈都能在终端设备上完成,它能够激活一些大场景,来形成对自身商业化的反哺。你会发现有很多场景确实对网络的延迟很敏感。

同时,它也有利于用户隐私安全和数据保护。随着数据的资产化,个人数据可能成为个人的重要资产。并且在AI时代,数据会成为核心生产资料,重要性如同工业时代的能源、农业时代的耕地。因此,在本地保护用户数据很重要。

:你说过,随着产业格局的演变,人工智能基础设施化是必然趋势。能否解释一下?

杨帆:AI作为一个先进生产力,一定会渗透进各行业,这是工业革命的内在逻辑。过去三次工业革命,电力、信息技术等都已渗透到了社会各个领域。当一个技术能够规模化地、广泛地改变产业结构乃至社会结构的时候,降低这个技术的门槛和成本也会成为必然,它会具有规模效应。

第一次工业革命,让蒸汽机、铁路成为基础设施。第二次工业革命,让发电厂、电网成为基础设施。第三次工业革命,让信息技术、互联网成为基础设施。如今,AI时代也会有新的基础设施,包括算力、数据等等,这个趋势很清晰。

:近期外界关注商汤组织架构的Re-cofound(二次联合创业),您也提到“1+X”战略,能不能介绍一下最新进展?

杨帆:“1+X”中的“1”是指从包括AI Infra(基础设施)到大模型的迭代,再到围绕多模态大模型技术的两个应用方向,一个是生产力的工具,另外一个就是下一代的多模态交互。“1”就像大树的主干,它本身也会形成比较大的商业机会,但更多还是持续推动整个AI技术的迭代和进步。

同时,人工智能还要进入到具体的行业,去解决具体问题,在某个行业或者跨行业的场景,并在每个分支形成独立的商业模式,这就是“X”。我们希望让“1”和“X”更好地结合,在商业化探索中有更灵活、更开放、更快速响应的能力。

基于这个战略,我们有几个不同方式:第一是把一些业务分拆,比如医疗、零售等都有典型的垂域,分拆后商汤占一定股份比例,给他们提供技术能力和价值。第二类是孵化,比如最近在搞的具身智能。第三类是对产业上下游和新行业的投资。

:你会担心AI取代人类吗?如何看待AI的风险?

杨帆:不担心。任何技术进步带来的风险都始终存在,与其担心,不如从现实出发,判断我们能做什么有意义的事情。比如在AI安全伦理上我们要做很多事情,要和国际社会、国际组织开展更多合作。随着越来越多的机器人出现,可以想象它们与物理世界、其他机器人和人之间产生交互,在交互过程中也在不断发展自己的智能。我们需要帮助它定义规则,除了物理规则,还有文化、价值观和道德准则等,最终产生人类所需要的智能。

    责任编辑:徐祯曜
    图片编辑:施佳慧
    校对:张艳

    http://news.xdnf.cn/jaWalPJeyR

    相关文章

    软件公司Figma IPO背后:AI如何重塑SaaS行业的未来

    7月31日,美国软件开发公司Figma 以每股33美元发行IPO,最终估值达193亿美元。股价在首日收盘上涨约250%,在科技IPO史上,很少有公司能像Figma 那样迅速果断地抓住市场的目光。上周,Figma的创始人Dylan Field和Praveer Melwani参加公司于纽约证券交易所进行的IPO活动。图片来…

    美政府冻结加州大学洛杉矶分校近6亿美元联邦资金

    当地时间8月6日,美国加州大学洛杉矶分校表示,特朗普政府已冻结该校5.84亿美元的联邦资助资金,理由是该校在支持巴勒斯坦的抗议活动中被指容忍反犹太主义。该校校长胡里奥弗伦克通报称,目前约5.84亿美元的“校外科研项目资金”被暂停发放,正面临风险。新闻多看点7月29日,加…

    特朗普称美将对芯片和半导体征收约100%的关税

    当地时间8月6日,美国总统特朗普表示,美国将对芯片和半导体征收约100%的关税。特朗普称,如果在美国制造,将不收取任何费用。责任编辑:王建亮澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    特朗普称将对俄罗斯实施更多二级制裁

    当地时间8月6日,美国总统特朗普称,将对俄罗斯实施更多二级制裁。特朗普7月29日称,他把俄罗斯与乌克兰达成和平协议的最后期限设定为10天,从当天开始计算。如果俄方没有就此取得进展,将面临美国新的制裁。特朗普当前对俄罗斯设置的完成俄乌和谈最后期限为8月8日。责任编辑:…

    卢拉:巴西不会对美征收报复性关税,未放弃与美对话

    巴西总统卢拉(资料图)当地时间8月6日,巴西总统卢拉在接受媒体采访时表示,目前没有与美国总统特朗普直接对话的空间。卢拉称,巴西不会宣布对美国商品征收报复性关税,巴西政府也不会放弃与美国内阁层面的对话。美国总统特朗普7月30日签署行政令,宣布将从8月6日起对巴西输美…

    消息人士称特朗普计划最早下周与普京和泽连斯基会面

    《纽约时报》报道截图当地时间8月6日,据《纽约时报》报道,两位知情人士透露,美国总统特朗普告知欧洲领导人,他计划最早于下周与俄罗斯总统普京进行面对面会晤,随后还计划与普京和乌克兰总统泽连斯基举行三方会谈。知情人士称,特朗普在6日与欧洲领导人通电话时透露了这一计…

    特朗普与泽连斯基通电话,讨论美特使访俄议题

    据美国阿克西奥斯新闻网站报道,当地时间8月6日,美国总统特朗普与乌克兰总统泽连斯基通电话。目前双方暂未发布有关通话内容的官方声明。责任编辑:苏晨澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    美国一陆军基地发生枪击致人员受伤,现已封锁

    当地时间8月6日,美国东南部佐治亚州斯图尔特堡陆军基地表示,该基地当天发生枪击事件,有5名士兵中枪。基地表示,士兵们的伤情尚不明确。伤者均已在现场接受治疗后被送医。据悉,该基地已实施封锁。责任编辑:苏晨澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    特朗普称美俄会谈富有成效,白宫官员预计美仍将对俄实施制裁

    当地时间8月6日,美国总统特朗普在其社交媒体“真实社交”发文表示,美国中东问题特使威特科夫与俄罗斯总统普京进行了一次富有成效的会谈,并取得了重大进展。特朗普称,他已经向一些欧洲盟友通报了最新情况,各方同意这场冲突必须结束,他们将在未来几天和几周内努力实现这一…

    特朗普与泽连斯基通电话

    据美国阿克西奥斯新闻网站报道,当地时间8月6日,美国总统特朗普与乌克兰总统泽连斯基通电话。目前双方暂未发布有关通话内容的官方声明。责任编辑:苏晨澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    巴西就美国加征关税向世贸组织提出磋商请求

    总台记者当地时间6日获悉,巴西政府已就美国对该国产品征收的关税措施向世界贸易组织提出磋商请求。美国总统特朗普于7月30日签署行政命令,决定自8月6日起,对巴西大部分输美产品加征50%的关税。不过,巴西出口的飞机、坚果、橙汁以及部分金属产品将被豁免。据悉,此次被加征关…

    岳阳警方:一货车移车时意外失控,造成饮料店门口2死2伤

    (原题为《警情通报》)责任编辑:崔烜澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    广州白云区山体滑坡第九名被困人员被救出

    据广州市应急管理局消息,8月6日上午接群众报警,广州市白云区大源街颐雅苑附近疑似发生山体滑坡,有房屋垮塌,多人被困。广州市白云区应急、消防、公安、住建等部门人员已抵达现场开展紧急救援。8月6日22时30分左右,南方+记者在现场看到,救援人员用担架从现场抬出一名人员,…

    无人机巨头进军扫地机器人赛道:大疆首款产品4699元起售,能实现弯道超车吗

    无人机巨头“大疆”跨界进军扫地机器人赛道。8月6日,DJI大疆推出首代扫地机器人DJI ROMO系列(以下简称“ROMO”),这是大疆首次从空中智能领域拓展到家庭清洁场景。DJI ROMO系列首次对外发布三款机型,国内市场售价分别为DJI ROMO S(水箱版)4699元、DJI ROMO A(水箱版)5…

    特朗普对印度加征25%的额外关税

    当地时间8月6日,白宫称,美国总统特朗普签署行政命令,对来自印度的商品加征25%的额外关税,以回应印度继续“直接或间接进口俄罗斯石油”。美国总统特朗普8月4日称,由于印度购买大量俄罗斯石油并借此获利,美国将大幅提高从印度进口产品的关税。责任编辑:苏晨澎湃新闻报料:…

    峨眉山A:上半年峨眉山景区接待游客209.52万人次,同比下降6.5%

    8月6日,峨眉山旅游股份有限公司(峨眉山A,000888.SZ)发布2025年半年度报告。财务数据显示,今年上半年,峨眉山A的营业收入约4.57亿元,同比减少10.07%;归母净利润约1.21亿元,同比减少8.48%;扣非后的归母净利润约1.19亿元,同比减少9.65%。峨眉山A指出,2025年上半年,国…

    第十一批药品集采正式报量:首次允许按厂牌报,影响有多大?

    8月6日晚间,国家医保局举办第十一批药品集采报量在线解读,以便于医药机构准确理解报量工作要求和操作流程。澎湃新闻记者注意到,半个小时的解读会在国家医保局视频号上有超过4万人观看,现场参与者包括来自医疗机构、药店等代表。“反内卷”是第十一批集采的重要原则,包括报…

    百济神州上半年首次盈利:收入增近五成,上调全年收入及毛利率预期指引

    8月6日晚间,百济神州有限公司(百济神州,ONC.US;6160.HK;688235.SH)发布2025年半年报,上半年总收入175.18亿元,同比增长46%,其中产品收入173.6亿元,同比增长45.8%。利润方面,百济神州多个指标同比扭亏,其中上半年营业利润为7.99亿元,利润总额为7.97亿元,归母净利润…

    第十一批药品集采正式报量,首次允许按厂牌报,影响多大?

    8月6日晚间,国家医保局举办第十一批药品集采报量在线解读,以便于医药机构准确理解报量工作要求和操作流程。澎湃新闻记者注意到,半个小时的解读会在国家医保局视频号上有超过4万人观看,现场参与者包括来自医疗机构、药店等代表。“反内卷”是第十一批集采的重要原则,包括报…

    历史的温度与力量:这场展览用134个封面再现抗战的民族记忆

    8月3日,由复星艺术中心与上海孚宝文化传媒中心共同出品的纪念中国人民抗日战争暨世界反法西斯战争胜利80周年主题展览——《时代封面(On the Covers):1931-1945》正式开幕,展览通过集中呈现1931年-1945年的134份珍贵期刊,生动再现了中国人民抗日战争期间的细节记忆。本次展…