直击谷歌I/O 2025：谷歌AI眼镜剑指主流市场，未来拍电影全靠“打字”？-DTCMS 新闻发布网

直击谷歌I/O 2025：谷歌AI眼镜剑指主流市场，未来拍电影全靠“打字”？

article/2025/5/21 13:32:34

AI能生成分镜，“拍”电影还会远吗？

北京时间5月21日凌晨，在2025年Google I/O开发者大会的主题演讲中，谷歌CEO桑达尔·皮查伊以一句轻松的“双子座季节”开场白，揭开了这场科技盛宴的序幕。他直言，在谷歌的“Gemini时代”，技术突破不再受传统发布周期束缚，谷歌正以史无前例的速度将最前沿的AI模型推向全球用户。

皮查伊强调：“我们打破了‘性能与价格不可兼得’的行业魔咒。”Gemini 2.5 Pro在性能飙升的同时，实现了成本的大幅优化。数据显示，Gemini模型每秒生成输出令牌数已跻身全球前三，而单位计算成本较前代下降40%。这一突破得益于谷歌第七代TPU芯片的赋能——这款专为大规模推理设计的芯片，性能较前代提升10倍，单计算仓算力达42.5 ExaFLOPS，成为支撑谷歌AI基础设施的“超级引擎”。

技术突破正转化为触手可及的产品体验。皮查伊公布了一组数据：过去一年间，谷歌每月通过产品和API处理的AI Token数量从9.7万亿激增至480万亿，增幅超50倍；开发者生态同样迎来爆发式增长，超过700万开发者通过Gemini API、Google AI Studio和Vertex AI平台构建应用，较去年增长5倍。其中，Vertex AI平台上的Gemini使用量更是飙升40倍。

在用户端，Gemini应用的月活用户已突破4亿，Gemini 2.5 Pro版本的使用量较前代增长45%。搜索领域的革新尤为显著：AI概览功能每月覆盖15亿用户，成为全球规模最大的生成式AI应用场景。皮查伊透露，谷歌搜索的“下一站”将是AI驱动的交互模式升级，用户将体验到更自然、更个性化的信息获取方式。

不仅如此，Google正通过三个研究项目，将实验转化为产品：

Project Starlight进化：Google Beam开启3D通讯时代历经数年研发，Project Starlight的3D视频技术正式落地为全新平台Google Beam。该平台通过6摄像头阵列捕捉用户动作，结合AI生成3D光场显示，实现毫米级头部追踪和60帧实时渲染。皮查伊现场演示了与惠普合作设备的沉浸式通话效果，并宣布首批测试设备将于年内推出。

Project Astra：跨语言对话的“无感翻译”作为实时语音翻译技术的集大成者，Google Meet现已支持英语与西班牙语的即时互译，未来几周将扩展至更多语种。演示中，系统精准还原了演讲者的语气、节奏甚至表情

Project Marina：智能代理的“操作系统”定位为“网络交互智能体”的Project Marina，已具备多任务处理和教学-重复学习能力。皮查伊展示了其如何同时管理10项任务，并通过一次演示学习完成复杂操作。该技术将通过Gemini API开放给开发者，首批合作伙伴包括Automation Anywhere和UiPath，预计夏季面向更广泛用户推出。

智能体生态：从工具到伙伴的进化

皮查伊将智能体（Agent）视为AI技术的“下一形态”。他现场演示了Gemini应用中的“代理模式”：用户只需设定需求系统即可自动调用Project Marina完成房源筛选、预约看房等操作，用户全程无需介入。这一功能将率先向订阅用户开放。

更深远的意义在于谷歌推动的“智能体互联计划”：通过开放的Agent-to-Agent协议和Model Context Protocol，不同智能体可共享数据与工具，构建协作生态。皮查伊强调：“这不仅是技术升级，更是对‘人机协作’模式的重新定义。”

Gemini 2.5：AI能力系统性跃升，开启多模态智能纪元

Gemini 2.5 Pro经过近期优化，在自然语言理解、代码生成、复杂推理及多模态处理（图像/视频）等领域全面突破性能边界，成为行业标杆。而轻量化模型Gemini 2.5 Flash则以22%的推理速度提升和更低资源消耗，提供与Pro相近的能力，计划6月率先开放开发者接入，重塑效率与成本的平衡。

本次升级的最大亮点在于原生多模态能力落地：

语音交互革新：全新文本转语音（TTS）技术支持24种语言无缝切换，可精准模拟人类语音中的情绪细节（如语速、语调变化），实现“情感化语音角色”生成。

视觉到3D的极速转化：用户仅需上传草图并输入提示词，系统即可在数十秒内自动解析图像、生成可交互的3D模型并部署上线，全程无需专业3D开发知识。

此外，谷歌推出AI编程代理“Rose”，支持从代码生成、错误修复到版本迁移的全流程自动化，标志着AI从辅助工具进化为“异步执行开发者”。现场演示的文本生成视频技术结合新一代低延迟架构，生成效率较前代提升5倍，预示生成式AI在视频创作领域的爆发潜力。

强化“深度思考”，加速构建“世界模型”生态

谷歌表示，Gemini 2.5 Pro的核心突破之一，就是引入了“深度思考”（Deep Think）能力，标志着AI向通用智能迈出关键一步。

Gemini 2.5 Pro通过集成谷歌最新推理架构，实现复杂任务下的“延时思考”能力。参考AlphaGo的策略性决策逻辑，该模型在分配更多计算资源时，可输出更具逻辑纵深的分析结果。

作为原生多模态架构，Gemini 2.5 Pro可跨文本、图像、音视频进行联合推理。更关键的是，谷歌正基于此构建“世界模型”——一个能实时映射物理规则、预测环境变化的虚拟智能体。现场演示中，Gemini仅凭简单草图生成可交互3D场景，并通过Gemini Robotics子模型驱动机械臂完成动态抓取任务，展现AI从认知到行动的闭环能力。

视频理解模型Veo实现了更多物理世界层面的理解：能精准模拟物体运动轨迹、材质反光特性及重力影响，甚至预测多物体碰撞结果。这一能力将赋能机器人、XR设备及物联网终端，使AI具备“预演现实”的规划力。

谷歌现场展示了“Gemini Life”场景：用户维修自行车时，AI可同步调取说明书、分析故障视频、搜索教学资料、联系配件供应商，甚至通过语音交互协调维修流程。这种跨模态、主动式服务模式，预示着AI将从被动工具进化为能自主规划、串联任务的“数字伙伴”，重新定义人机协作边界。

从信息索引到智能助手，Google搜索在AI模式下走向“质变”

Google强调，AI模式并非独立产品，而是搜索体系的进化试验场。其终极目标是将搜索引擎从“信息检索工具”升级为“思考伙伴”——用户不再被动接收链接，而是与具备判断力、执行力的智能体协同决策。当搜索能自主拆解问题、整合跨平台数据、预判用户需求时，一场关于人机协作的范式革命已悄然到来。

面对用户查询方式从关键词向复杂语境的转变，Google推出基于Gemini 2.5重构的“AI模式”，以多模态推理与全球信息整合能力重塑搜索体验。

技术层面，AI模式通过Query Decomposition技术实现“查询拆解”：系统自动识别需深度推理的问题，拆分为数百个子任务，调用定制化Gemini模型执行海量搜索，最终生成结构化报告——融合网页、知识图谱、地图等数据，附带来源验证、对比图表及可视化分析。例如，用户可一键获取球员使用新型球棒后的击球率趋势图，或跨平台比对红袜队比赛门票价格并完成订票流程。

个性化则是另一大亮点。Google即将推出“个人情境”功能，搜索结果可以结合Gmail中的行程信息、用户的偏好数据等做出更贴合生活的推荐。例如，当用户搜索周末活动建议时，系统会知道其刚刚订了户外餐厅，或订阅了某个画廊的信息展，并提供匹配推荐。同时，用户对自己的信息接入权限具有完全控制权。

除了文本和数据的处理能力，AI模式还全面升级了视觉搜索体验。Google Lens的月活跃用户已超15亿，而AI模式引入了Project Astra的实时视觉交互功能——“实时搜索”。用户可以通过镜头直接展示问题场景，如DIY项目、科学实验或复杂设备操作，搜索引擎则仿佛“视频通话中的助手”，在实时画面中给出精准指引。通过AI眼镜的多模态互动，正成为“下一代搜索”的关键入口。

图像与视频生成的质变：Imagen 4与Veo 3齐发

在生成式内容方面，Google带来了新一代图像模型Imagen 4和视频模型Veo 3。Imagen 4强化了图文混排、细节表现和构图逻辑，能够根据简单的描述生成用于音乐节、品牌活动等场景的高质量海报。而Veo 3则实现了视频生成的一个质变——首次引入“原声音频生成”（Native Audio Generation），不仅画面栩栩如生，背景音效与角色对话也可一并生成，实现真正意义上的沉浸式内容生产。

Veo 3所展现的能力，标志着生成式AI正在重塑影视制作的整个流程。Google透露，已与电影制作行业展开深入合作，探索AI生成内容的专业化路径。

谷歌还首次揭示了Gemini Agent模式下的多模态操作方式。这是一个可在Chrome中工作、支持多任务协作的AI代理，能够实时理解网页语境、对比评论、自动整理信息，为用户提供上下文感知的帮助。

会上，谷歌还发布了Lyria，这是一款能够生成高保真、专业级音频的新模型。无论是独唱还是合唱，其生成的音乐在细节和情感表达上都展现出强烈的感染力。

在生成内容日益逼真的背景下，谷歌延续其在媒体透明化上的探索。早在两年前推出的“SynthID”水印技术，如今已覆盖超过100亿条生成内容，并获得进一步升级。此次更新引入了多模态检测器，不仅能识别图像是否含有隐形水印，也可以判断音频、文本及视频是否部分或完全由AI生成。

这一技术的扩展不仅是技术性的进步，更是回应社会对于AI内容来源可追溯性的迫切需求。谷歌强调，他们正扩大与全球合作伙伴的协作，以将此类可识别机制推广到更广泛的生成式媒体生态中。

颠覆创意生成范式，AI视频创作新引擎 Flow

作为活动的一大亮点，谷歌发布了一款专为创意人士打造的AI视频制作工具——Flow。这款工具集成了Veo、Imagen和Gemini，是一个从灵感萌芽到成片输出的完整内容生产引擎，意在重塑创意素材的生成方式。

Flow不仅仅是一个视频工具，它是一个能与创作者的构思实时互动的AI伙伴。通过自然语言输入，创作者可以设定人物、场景、情节，甚至详细到镜头调度和画面风格。谷歌在现场演示了一个案例：一位祖父希望制造一辆“能飞的小汽车”送给孙子。创作者只需描述角色和剧情设定，Flow便可即时生成画面素材；再通过轻松的拖放和编辑，逐步将片段串联为完整短片。

创作过程中，用户不仅可以添加镜头，更能定义每一个镜头的情绪、节奏与画面风格。Flow具备保持风格一致性的能力，使得即便是由多个生成模块构建的作品也具有统一的美术表现力。更重要的是，所有素材都可以被导出至主流视频剪辑软件，创作者仍然拥有对最终成品的完全掌控。

谷歌强调，Flow不是在取代导演与编剧的角色，而是在构建一种新的创作流程：灵感涌现时，AI可以立即响应；创作陷入瓶颈时，AI可以提供提示和延展。从某种意义上，它帮助创作者“看见”那些尚未成形的想法。

在AI的辅助下，故事结构在眼前展开，角色仿佛拥有了自己的生命。创作者从“努力去做”，逐渐转变为“纯粹地表达”，这也许正是生成式AI对创意产业最深远的改变。

Gemini进入XR设备，智能眼镜走向量产

继Android 16与WearOS 6的发布后，谷歌正式将AI助手Gemini嵌入到更广泛的设备形态，从手机走向手表、汽车仪表盘、电视，再一步扩展到全新的XR平台。

为了应对用户在不同场景下的使用需求，谷歌发布了XR领域首个Android平台——Android XR。这一平台支持从沉浸式头显到轻巧便携的智能眼镜，打破了传统单一设备的限制。谷歌明确指出，XR不是一个通用方案，而是一个多形态协同生态。在处理工作或娱乐时，用户可以佩戴高性能头显；而在移动场景中，轻便的眼镜则成为理想助手。

这一战略正在由谷歌与三星、高通联合推进。首款搭载Android XR的设备是三星的Project Moohan头戴装置，通过Google Maps XR功能与Gemini整合，用户只需发出语音指令，便能沉浸式“瞬移”到全球任意地点。在体育应用中，例如MLB，用户可以仿佛置身球场，实时获取球员数据和赛事分析。