李飞飞发布全新世界模型,可在单张H100GPU上流畅运行

article/2026/1/13 19:40:00

10月16日,“AI教母”李飞飞宣布对外推出全新模型RTFM(AReal-TimeFrame Model,实时帧模型)。RTFM是一款全新的实时生成世界模型,能够与用户交互时实时生成视频,并遵循三大核心设计原则:效率、可扩展性、持久性。

RTFM可将单张图像渲染成3D场景,一个模型可处理多种场景类型、视觉风格和效果,包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放用户体验。

使用 RTFM 渲染的布满阳光的游泳池场景

能在单张H100GPU上运行的“实时世界”

李飞飞团队World Labs表示,强大的世界模型将能够实时重建、生成并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。

过去一年间,这项新兴技术发展迅猛,生成式视频建模的突破性进展已成功应用于生成式世界建模领域。一个趋势随之逐渐明朗:生成式世界模型的计算需求将远超当前的大型语言模型。

若简单套用现代视频架构,要生成60帧/秒的交互式4K视频流,每秒需要生成超过10万个标记(相当于《科学怪人》或《哈利·波特》第一部的篇幅)。若要让这些生成模型持续运行一小时以上,需处理的上下文token更将超过1亿。以当今的计算基础设施来看,这种方案既不可行,也不具备经济可行性。

World Labs认为,在人工智能领域,随着计算能力提升而优雅扩展的简单方法往往占据主导地位,因为这些方法能够受益于推动技术发展数十年的计算成本指数级下降趋势。生成式世界模型完全具备优势,将在未来持续降低的计算成本中获益。

这就引出了一个自然的问题:生成式世界模型是否被当今的硬件限制所阻碍?或者现在是否有方法可以预览这项技术?

于是,李飞飞团队设定了一个简单而明确的目标:设计一个高效且可部署的生成式世界模型,能够随着计算能力提升持续扩展。

他们想要构建一个能在单张H100GPU上运行的模型,既能保持交互帧率,又能确保世界数据在长时间互动后依然完整。实现这些条件能让他们通过当前的体验提前预判未来这些模型可能达成的高度。

这一目标影响了他们从任务设置到模型架构的整个系统架构设计,并通过仔细优化推理堆栈的所有部分,应用架构设计、模型蒸馏和推理优化方面的最新进展,为在当今硬件上运行的未来模型提供最高保真的预览。

RTFM 对地板上的复杂阴影和反射进行建模

从图像到世界:RTFM如何突破生成式建模的边界

扩展性方面,传统3D图形管线依赖人工设计的显式三维模型(如三角网格、高斯贴图)和算法,对几何、材质、光照等进行精确建模,再渲染为二维图像。该方法虽成熟,但在处理大规模数据时扩展性受限。

而RTFM采用了一种基于生成式视频建模的创新方法,其核心是一个经端到端训练的神经网络。它仅输入场景的二维图像,无需构建显式三维模型,即可从新视角生成对应图像。

该技术基于生成式视频建模,训练一个神经网络将输入图像转换为一种隐式的世界表征(KV缓存),进而通过注意力机制直接从该表征中读取信息,来生成新视角下的连贯图像。这意味着复杂的光照、反射等效果并非由人工规则定义,而是通过从数据中学习自动掌握,从而能够与Marble 实现从单张图像高效创建具有真实感的3D场景。

RTFM还有一个重要特性是模糊了重建与生成的传统界限:当输入视图充足时,系统倾向于精确重建;当输入视图稀疏时,它则能进行合理的内容推演与生成。

使用 RTFM 渲染的户外游乐场

另外,现实世界具有持久性:当视线移开时,场景不会消失或重置,人们可以随时返回之前的位置。这一特性对自回归帧模型构成了显著挑战。由于此类模型仅通过二维图像帧序列隐式地表示世界,随着探索范围扩大,需要处理的帧数量持续增长,导致每一帧的生成成本不断累积,模型的“记忆容量”实际上受限于可用的计算资源。

RTFM通过引入“姿态帧”作为空间记忆,有效突破了这一限制。该方法将每一帧与其在三维空间中的姿态绑定,使模型能够在生成新帧时依据目标姿态从已有的空间记忆中检索邻近帧,构建局部上下文。这种设计为模型提供了一个弱空间先验—即世界处于三维欧氏空间中,而无需显式进行几何重建,既降低了建模复杂度,也增强了对场景结构的理解。

为实现高效运行,RTFM采用了上下文调度机制,在不同空间区域生成图像时动态切换所使用的上下文帧,称为“上下文切换”。这一策略使模型无需在处理新帧时加载全部历史数据,从而支持大规模场景的持久维护,实现所谓“无限持久性”。通过将帧组织为具有空间结构的记忆系统,RTFM在长期交互中能够保持场景一致性,同时显著提升生成效率和可扩展性。

World Labs指出,RTFM展示了在现有硬件上部署高效世界模型的愿景,其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性,未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100GPU上实时运行,而更大规模的模型将持续优化性能。

World Labs成立于今年4月,在四个月内从创始公司成长为独角兽。去年9月,World Labs正式宣布完成2.3亿美元的巨额融资,投资方包括硅谷知名投资机构a16z、NEA、加拿大风投公司Radical Ventures,以及英伟达公司的风险投资部门等。众多AI领域的知名人士也参与了投资,包括谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)和前谷歌AI研究员杰弗里·辛顿(Geoffrey Hinton)。

    责任编辑:喻琰
    图片编辑:乐浴峰
    校对:刘威

    http://news.xdnf.cn/LbcbpwtJQM

    相关文章

    蒙古国总理赞丹沙塔尔被罢免

    赞丹沙塔尔(资料图)总台记者10月17日获悉,蒙古国总理赞丹沙塔尔辞职。赞丹沙塔尔1970年出生于蒙古国巴彦洪戈尔省。他曾于2004年、2008年、2016年、2020年当选国家大呼拉尔委员,2009年至2012年任蒙古国外交部长,2012年至2013年任蒙古人民党总书记。2017年至2019年任政府办…

    蒙古国总理赞丹沙塔尔辞职

    赞丹沙塔尔(资料图)总台记者10月17日获悉,蒙古国总理赞丹沙塔尔辞职。赞丹沙塔尔1970年出生于蒙古国巴彦洪戈尔省。他曾于2004年、2008年、2016年、2020年当选国家大呼拉尔委员,2009年至2012年任蒙古国外交部长,2012年至2013年任蒙古人民党总书记。2017年至2019年任政府办…

    缅北“四大家族”及徐老发犯罪集团全部覆灭!一文回顾时间线

    长期以来,缅北果敢自治区以白所成、魏怀仁、刘正祥、徐老发等为首的多个犯罪集团大肆组织开设诈骗窝点,公开武装护诈,针对中国公民疯狂实施电信网络诈骗犯罪活动,诈骗数额巨大,同时涉嫌故意杀人、故意伤害、非法拘禁等多种严重暴力犯罪,犯罪情节极其恶劣,社会危害极其严…

    阿里计划年内再度减持圆通速递,逐渐收缩对“通达系”持股

    阿里系年内再减持圆通速递。10月16日晚间,圆通速递股份有限公司(圆通速递,600233.SH)发布《关于5%以上股东大宗交易减持股份计划的公告》。公告称,圆通速递股东杭州灏月企业管理有限公司(简称“杭州灏月”)出于股东自身发展战略和资金筹划考虑,拟在公告披露之日起15个交…

    复刻四大家族“政军商”模型、挑手筋剁手指……缅北果敢徐老发案细节曝光

    在此次打击缅北电诈犯罪的国家行动中,有一股缅北果敢“四大家族”之外的新兴势力也被列入了总体打击目标,它就是代表着正在崛起中、试图跻身权力阶层,在乱局中分一杯羹的缅北新一代势力——徐老发犯罪集团。2025年9月17日至19日,重庆市第五中级人民法院一审公开开庭审理了徐…

    百年前的复旦商科毕业生:徐以楙的尘封岁月

    一1925年,18岁的浙江平湖人徐以楙来到上海。此前他已在嘉兴秀州中学毕业,在家庭的安排下打算报考燕京大学,而且已经将中学成绩寄去并通过初选,得到通知需到上海沪江大学进行口试。不料,这年夏天嘉兴霍乱流行,徐以楙不幸染病,虽然侥幸得救,却已耽误考期,只得转而投考复…

    行以致远|当上海徐汇“遇见”人工智能,这张AI名片何以闪亮

    过去五年拿下多个“第一”,上海徐汇做对了什么?2025年是“十四五”规划收官之年。10月16日,上海市政府新闻办举行“实干绘答卷 接力新蓝图”上海“十四五”规划成果系列新闻发布会,围绕“建设新徐汇、奋进新征程”主题,徐汇区介了“十四五”期间建设发展成果。从徐汇区委书…

    国家广电总局原副局长、山西省委原常委高建民逝世,享年65岁

    澎湃新闻记者从高建民同志亲友处获悉,国家广播电视总局原副局长、党组成员,山西省委原常委、副省长高建民同志,因病于2025年10月16日在北京逝世,享年65岁。公开资料显示,高建民,男,汉族,1960年11月生,中共党员,在职研究生学历,法学博士学位。高建民曾任共青团山西省…

    《桥:哈特·克兰诗全集》:脆弱的心,写出钢铁的诗

    1932年,哈特克兰死于行驶在墨西哥湾上的蒸汽轮船。主流的说法是其借酗酒自杀,我对此保持不可知的态度。有人说克兰是一个更为情绪化、更青年的艾略特,同样的玄言奥旨,但更燃烧。也有人说,他复现了惠特曼和爱默生身上的美国式崇高。这些自然也是布鲁姆式的颇具启发的影响迷…

    中老铁路跨境国际旅客突破60万人次,国际列车带火沿线景区

    澎湃新闻从中国铁路昆明局集团有限公司(以下简称“国铁昆明局”)获悉,截至10月15日,中老铁路国际旅客列车累计运送来自全球115个国家和地区的60万名跨境国际旅客,今年达20.4万人次,实现明显增长。昆明至万象相距1000多公里,然而飞速的动车仅需9小时30分就能抵达。每天,…

    用粉蓝相框暗示胎儿性别,上海一孕婴摄影店被处罚后停业

    “来拍四维宝宝照片,店里会送粉蓝相框,盲盒已开,看得很准……”上海某孕婴摄影店为孕妇拍摄胎儿B超照片留念,同时送出“粉蓝”礼物,暗示胎儿性别。10月17日,澎湃新闻(www.thepaper.cn)记者从上海市宝山区人民检察院(以下简称“宝山区检察院”)获悉,2024年11月,该院…

    马上评|把孩子养成“野人”,慎言只是教育方式不同

    10月15日,有网友称在四川雅安石棉县的高速公路上看到一个开着房车的家庭带着两个小孩,其中一个小孩没穿衣服,诸多行为动作表现出类犬状,此事迅速在网络上引发热议。对此相关部门也进行了回应。警方核实称,这是一个正常的家庭,孩子们一直在监护人陪伴下,“孩子是在大山里…

    公募董事长变动潮再添一例:兴业基金叶文煌到龄离任,刘宗治接棒履新

    又一家千亿公募变更“掌门人”。10月17日,兴业基金发布董事长变更公告。公告显示,刘宗治新任公司董事长、法定代表人,任职日期为2025年10月16日;原董事长叶文煌因年龄原因离任。叶文煌与刘宗治此前均在兴银基金股东方——兴业银行有过履职经历。履历显示,他曾任兴业银行总…

    人生至暗时刻!朱婷央视谈东京奥运后被网暴

    近日,央视访谈类节目《体坛零距离》上线了最新一期内容,中国女排运动员朱婷和中国女排原总教练郎平进行了一次“跨时代对话”。采访中,朱婷回忆起了自己在东京奥运会后遭遇网暴的那段经历,她直言这是她的人生至暗时刻,一度考虑退役。2021年7月29日,中国队主教练郎平(右)…

    为当“日本首位女首相”拼了?高市早苗与维新会加速协商联合执政

    高市早苗 视觉中国 图据央视新闻报道,当地时间10月15日,日本执政党自民党总裁高市早苗与在野党日本维新会举行党首会谈。高市早苗在会谈后向媒体表示,自民党与日本维新会将从16日开始展开政策磋商。另据《联合早报》16日报道,维新会党首吉村洋文在15日的会谈后表示,如果联…

    权力“跷跷板”摆荡,法国政坛如何走出惊魂“十月围城”

    自2024年法国总统马克龙解散国民议会、提前举行立法选举之后,法国政坛便一直处于动荡之中,连续出现两届“短命政府”。进入2025年10月,这种动荡进一步演化成严重的政治危机:总理勒科尔努(Sbastien Lecornu)费尽周折刚完成组阁,隔夜便迫于内外压力宣布辞职,极左极右势力…

    第17届傅雷奖入围作品揭晓,参评译者中80后占比超七成

    2025年傅雷翻译出版奖主海报 主办方 供图10月16日,澎湃新闻(www.thepaper.cn)记者从傅雷翻译出版奖新闻发布会上获悉,第17届傅雷翻译出版奖颁奖典礼(以下简称“傅雷奖”)将于今年11月22日到23日在北京举行。2009年,在法国驻华大使馆和以法国文学教授、作家及翻译家董强…

    2025中国壁球公开赛今日开票,将为申城再添一张体育名片

    11月11日至16日,壁球爱好者们翘首以盼的顶级赛事——2025中国壁球公开赛将在上海举行。10月17日中午12时,赛事票务销售正式启动。球迷朋友可在官方票务渠道久事体育APP、“久事体育APP”微信小程序及支付宝小程序上随心选购,也可通过大麦APP及微信小程序在线下单。级别更高 …

    2025中国壁球公开赛今日开票

    11月11日至16日,壁球爱好者们翘首以盼的顶级赛事——2025中国壁球公开赛将在上海举行。10月17日中午12时,赛事票务销售正式启动。球迷朋友可在官方票务渠道久事体育APP、“久事体育APP”微信小程序及支付宝小程序上随心选购,也可通过大麦APP及微信小程序在线下单。级别更高 …

    风尚英伦,境启东方,百年永安英伦艺境展盛装启航

    当百年永安的典雅风情,邂逅英伦美学的艺术格调,一场跨越国界与文化的时尚创意之旅旋即点亮。在上海时装周之际,由百联股份与英国驻沪总领事馆、英国商业贸易部共同打造的百年永安-英伦艺境展,在永安百货五楼盛装启幕。10月16日,英国驻上海总领事包迈岫(Matt Burney)、英…