谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告

article/2025/8/27 14:31:10

新智元报道

编辑:桃子

【新智元导读】谷歌DeepMind最新Nature王炸,直接把Gemini版大模型PH-LLM调教成了「AI健康私教」,把可穿戴冷冰冰的数据,直接变成睡眠健身建议,结果准确率暴打人类医生。

AI医学的圣杯,可能先被谷歌DeepMind夺下。

最近,谷歌全新健康大语言模型(PH-LLM)正式发布——一款微调Gemini的「个人睡眠和健康」模型。

论文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM将可穿戴设备中的数据,瞬间转化为可视化的内容。

它就像一个「AI睡眠专家+健身教练」,可以全天候分析监测个人的智能手表数据。

结果发现,PH-LLM在睡眠医学考试中得分(79%)碾压医生(76%),而且在健身认证中直接把人类专家按在地上摩擦(88% vs 71%)。

更牛的是,在人类评估中,PH-LLM生成的健康建议,几乎与专家无差别。而且,仅凭传感器数据,即可预测用户睡眠质量。

大多数可穿戴设备,往往只会给你一堆数据。

遗传学博士Dominic Ng对此点评道,「PH-LLM所做的,正是一位优秀医生会做的事,即将数据综合成『洞察』」。

最新研究已于14日登上Nature,具体看看,谷歌DeepMind如何做到的?

谷歌出手不凡,Gemini版「健康私教」

传统临床诊疗虽能提供宝贵信息,但对睡眠、运动、压力等,生活健康指标评估仅具阶段性。

如今,可穿戴设备就能实现无感连续监测。

不过,这些数据缺乏上下文背景,存储分析算力要求高、解读难度大等因素,并未广泛应用于临床实践。

甚至,这些数据也并未纳入标准「医学问答数据集」,导致通用基础LLM和医学LLM,都难以有效推理给出个性化建议。

为此,谷歌团队合力在Gemini上微调出PH-LLM,用于评估AI在睡眠与健康领域的表现,如下图所示。

可穿戴设备能监测信息远超这两个领域,为什么研究团队仅聚焦于此?

一方面,现有研究已充分验证可穿戴设备,在这些领域监测数据的准确性与适用性。

另一方面,设备使用者参与度高,无需提供临床建议即可给出实用指导方案。

研究中的真实案例:仅凭一名65-70岁男性提供的30天数据,PH-LLM便识别出了规律的睡眠时间表,但平均睡眠时间仅为5小时28分钟(过低)。

为此,它建议道:

更好的睡眠时间是从晚上12:00到早上7:30。你可以通过每隔几天将睡眠时间提前15分钟,逐步达到目标。

基于Gemini Ultra 1.0,PH-LLM采用了两阶段训练。

首先,作者对完整模型进行了微调,专门针对睡眠和健康领域的长篇案例分析回复生成任务。

训练数据包含了,人口统计学文本数据、最长30天的每日指标、聚合指标,以及仅针对健康案例的个体运动日志等。

在完成案例分析微调后,他们又为PH-LLM增加了多模态适配器。

这个适配器是用于,根据至少15天的纵向被动传感器数据(包含每日睡眠与活动指标),来预测睡眠障碍和睡眠损伤的主观报告结果(PROs)

两阶段训练完成后,团队从个人健康教练所需的多元能力维度出发,针对三大任务评估了PH-LLM的表现:

首先,通过多选题测试评估模型掌握的专家级领域知识储备;

其次,通过长案例研究检验模型应用专业知识、解读聚合传感器数据以提供教练建议的能力;

最后,测试模型预测患者主观报告结果(PROs)的能力,使其在生成建议时能整合个体对睡眠质量的自评数据,真正实现个性化健康指导。

AI击败人类专家

测试结果显示,在睡眠医学和健康体能考试,PH-LLM的答题正确率分别达到79%和88%(表1与图1b)。

这一结果,显著超过获得睡眠医学继续教育学分(CME)要求的约70%及格线。

而且,与主流外部模型相比,PH-LLM表现颇具竞争力:睡眠类题目稍逊但体能类题目表现相当。

具体而言,在睡眠医学考试中PH-LLM得分79%,Gemini Ultra 1.0为77%;在体能考试中两者均获88%得分。

受试者工作特征曲线(ROC)与精确率-召回率曲线,均证实模型在两类考试中的优异表现(附图2)。

值得注意的是,尽管针对睡眠与健康任务进行了微调,PH-LLM在PubMedQA29和MedQA30通用医学基准测试中,性能并未下降(附表1)。

值得一提的是,睡眠医学题库包含每道题目的人类考生答题分布等元数据,这允许团队基于题目难度进行分层性能比较。

PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0,且在难题上的优势更为明显。

这表明,睡眠案例研究的微调确实提升了相关题目的解答能力(表2)。

为量化PH-LLM的表现水平,团队还招募了5位平均从业25年的睡眠医学专家(均持有高级学位)和5位平均从业13.8年的职业运动教练参加同规格考试。

专家组在睡眠医学试题样本(N=204)中的平均正确率为76%,体能考试为71%,PH-LLM在两类题库中均超越人类专家(表1)。

按人类考生答题难度分层分析显示,PH-LLM的表现与人类考生及受邀专家群体相当(表2)。

案例分析,接近专家水平

接下来,研究团队进一步评估了,模型应用专业知识与解读传感器数据的能力。

为此,他们创建了首个睡眠与健康领域的详细个人健康案例数据集(857个案例,含3,271组问答对),由多位相关领域专家共同审定。

该数据集包含持续数周的个体可穿戴传感器数据,以及对应的深度分析与建议(图2a,b)。

在健康管理案例分析中,PH-LLM模型在三个维度(运动处方制定、恢复方案建议、训练准备度评估)上,表现出与人类专家及Gemini Ultra 1.0相当的水平(图2d)。

传感器数据,预测健康报告

此外,为了评估PH-LLM能否推断用户体验以优化健康指导,团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力。

首先通过计算问卷回答间的相关性分析PRO数据,发现16个问题测量了相关但独立的睡眠维度(图3a)。

随后检查传感器特征是否存在混杂因素,发现不同设备和参与者依从性间的传感器读数分布相似。

结果显示:没有单一特征对所有PROs具有绝对预测优势,预测信号广泛分布于多个传感器(图3b)。

为使PH-LLM能从传感器特征预测PROs,研究人员又训练了一个多层感知机(MLP)适配器,将20项传感器特征的统计量映射至PH-LLM的潜在标记空间(方法部分)。

随后将这些潜在标记作为上下文输入PH-LLM,要求其预测每个二分类结局。

在保留测试集中,团队比较了零样本提示、少样本提示与PH-LLM适配器方法,在受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)的表现(图3c,d)。

值得注意的是,客观睡眠测量数据对主观睡眠质量指标的预测力通常有限,但配备适配器的PH-LLM在AUROC和AUPRC上均显著优于两种提示方法。

正如Dominic Ng所言,谷歌研究意义并不止于一个「AI战胜医生」的故事。

这恰恰证明了,LLM可以将被动的健康监测,转化为积极的健康管理。

它不仅了解你的身体,还能理解其原因,并给出及时应对方法。

这就是预防医学的未来。

参考资料:

https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

https://x.com/GoogleForHealth/status/1956050991695933619

原标题:《谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告》

阅读原文

    本文为澎湃号作者或机构在上传并发布,仅代表该作者或机构观点,不代表的观点或立场,仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。


    http://news.xdnf.cn/VyDCLfuhyU

    相关文章

    鹤岗萝北机场开工2027年通航,投资10亿打通城市发展捷径

    8月27日,国家“十四五”民用航空发展规划重点项目——黑龙江鹤岗萝北机场正式开工建设。这座承载着鹤岗百万市民十年期盼的“飞天梦”工程,计划于2027年10月竣工通航,将从蓝图迈向现实,为这座资源转型城市按下发展“加速键”。8月27日,黑龙江鹤岗萝北机场正式开工建设。 本…

    鹤岗机场开建:这座资源型城市开启“空中突围”,重塑城市发展格局

    2025年8月27日,黑龙江鹤岗萝北机场正式开工建设。这座承载资源枯竭型城市转型腾飞梦想的空中门户,历经十年精心谋划,终从蓝图迈向现实。8月27日,黑龙江鹤岗萝北机场正式开工建设。 本文图片均为鹤岗市委宣传部 供图作为国家“十四五”民用航空发展规划重点项目,机场按4C标…

    诺奖得主贝尔托齐:癌细胞“糖衣”的伪装机制和药物策略

    如果说正常细胞的表面像一个修剪整齐的花园,那么癌细胞的表面则像一个唾液酸过度生长的“热带丛林”。这片“丛林”正是癌细胞的伪装。新型药物分子能够保证“除草机”仅对癌细胞进行修剪,而不会伤到正常细胞。双功能唾液酸酶融合蛋白疗法计划在明年启动首个人体临床试验。近…

    多省份举办高校党委书记、校长培训班,省委领导作报告

    今年是《教育强国建设规划纲要(2024-2035年)》全面实施的开局之年。秋季学期来临之际,浙江、湖南、江西等地举行全省高校党委书记、校长研修班、政治能力提升专题培训班,省委书记、副书记作开班动员、专题报告等,强调要坚持党对教育事业的全面领导,更好扛起立德树人的责任…

    七夕档来了,去和电影“谈恋爱”吧

    一年一度的七夕将至,又有不少爱情电影在电影院里等待观众,银幕上的悲欢与心动,会成为多少人的浪漫印记。今年七夕档赶上暑期档的尾声,正好给整个档期来一波助力冲刺。往年这个小档期,诞生过票房黑马,大多数影片则逃不过“期间限定”的命运。今年的七夕节,从短暂却炽热的…

    汉中乡村医生出诊箱采购被投诉存多项问题,财政局:中标结果无效

    陕西省汉中市乡村医生出诊箱采购项目被一企业投诉,称存在中标货物不符合招标文件技术参数与性能指标,生产厂家虚假应标等问题。近日,汉中市财政局公布对该投诉的处理结果:中标结果无效,责令采购人另行确定中标供应商。8月18日,汉中市财政局在陕西省政府采购网发布《陕西华…

    王翔|我们可以《对工作说不》吗?

    《对工作说不》,[英]大卫弗雷恩著,重命名小组译,上海文艺出版社|艺文志eons,2025年3月出版,312页,56.00元在二十一世纪的今天,“你是做什么工作的”依然是全球社会中最常见的社交开场。单位、职位、薪资……像一根看不见的主线,编织着现代人的身份叙事。工位、工卡、加…

    我读|在思想和生活之间:《陈绛口述历史》释读

    《陈绛口述历史》,陈绛 口述 / 郭志坤 撰稿,上海书店出版社,2016年3月版王汎森在思想史研究中提倡“思想的生活性”和“生活的思想性”,关注生活和思想之间的往复交织,思之事物如微血管般遍布个体生活的每一个细节。[1]《陈绛的口述历史》是一代知识人对于革命和历史的见证…

    勒·柯布西耶逝世60周年|他重新定义了现代建筑

    毋庸置疑,勒柯布西耶(以下多简称“柯布”)是20世纪最伟大的建筑大师之一,甚至把“之一”去掉,想必许多人也不会有意见。就像卡夫卡重新定义了现代小说,T.S.艾略特重新定义了现代诗歌,勒柯布西耶重新定义了现代建筑。同为现代建筑四大师之一的密斯凡德罗深受柯布“功能至…

    马上评|什么才是一位老师的幸福时刻

    最近,两张对比照在全网刷屏。22岁的女孩何银和当年教过她的支教老师陈康,跨越12年于重庆再相逢。就在这个夏天,何银以“优秀实习生”的身份,结束了在新疆尼勒克县为期约半年的支教。这两张照片和它们背后跨越时光与山川的故事,引发无数网友点赞。12年前,陈康与上海的同事…

    媒体:贵州一22岁村支书意外去世,乡政府称属实目前已安葬

    近日,不少网友在社交平台上发帖悼念一个名为“黄念”的女孩,有网友称,其大学毕业后成为贵州望谟县打寒村的村支书,工作还不满一年。一位自称其表姐的网友发文表示,表妹22岁,于8月22日因为车祸去世,“很善良很可爱很活泼开朗的女孩”“不敢相信这是真的”。8月27日,望谟…

    国台办回应民进党当局威胁25名台湾艺人:表达对国家认同是正当权益

    8月27日,国务院台办举行例行新闻发布会,有记者问:民进党当局日前查处所谓“唱和”大陆的台湾艺人,台文化部门负责人称,依据法律沟通并了解艺人想法,陆委会称已陆续通知25名台湾艺人,若在说明期限内未回复视同放弃说明机会。请问发言人对此有何评论?朱凤莲表示,一段时间…

    为求职大一就开始实习?到底值不值

    在暑期等课余时间实习,为日后的求职简历积攒履历,已成为当下大学生的普遍选择。为了提升竞争力,一些同学还将首次实习的时间提前,在大二甚至大一就开始寻找见习岗位。据艾瑞咨询2022年的调查,在“985”和“211”大学应届生中,大一或大二就开始实习的同学占比达到41.1%,缺…

    科技赋能体育,首届长三角智慧体育创新创业大赛启动

    科技赋能体育,智慧引领未来。8月26日下午,首届长三角智慧体育创新创业大赛暨第三届合肥智慧体育创新创业大赛启动仪式暨宣讲推介会在上海体育大学科技园成功举办。上海市体育局、安徽省体育局、上海市杨浦区体育局、合肥高新区管委会、合肥市体育局、上海体育大学科技园、波动…

    团伙化作案非法狩猎贩卖苍鹭、灰雁等野生鸟类,17人被判刑

    苍鹭 视觉中国 资料图犯罪团伙上下游一条龙非法捕猎贩卖野生鸟类,检察机关实施全链条打击,17人被判刑。8月27日,全国生态环境检察工作推进会在浙江湖州召开,会上最高检发布了一批生态环境检察典型案例。《宁夏回族自治区李某楠、张某弟等人非法狩猎 罗某福掩饰、隐瞒犯罪所…

    “星舰”完成第十次试飞:预定目标基本达成,但道阻且长

    “星舰”点火升空。资料图据新华社27日报道,美国太空探索技术公司(SpaceX)新一代重型运载火箭“星舰”美国中部时间26日18时30分(北京时间26日7时30分)从得克萨斯州发射升空,实施第十次试飞。经过近一个小时的飞行,“星舰”飞船成功溅落印度洋,火箭的一级“超重型助推器…

    免收台湾“首来族”申办台胞证证件费受好评,国台办:将继续出台更多政策

    8月27日,国务院台办举行例行新闻发布会。有记者问:6月下旬,大陆宣布自7月1日起免收台湾“首来族”申办台胞证证件费,受到台湾民众好评。请问近两个月来该项政策实施效果如何?对此,发言人朱凤莲表示,台湾“首来族”申办台胞证免收证件费政策自7月1日实施以来,获得广大台…

    高温天,慢病患者防暑降温指南请查收

    作者简介 /Profile/ 李晓(1989—),女,主管护师,本科,海军军医大学第二附属医院肾脏病科护士,主要从事临床护理。 高温来袭,炎热的天气,不仅让人体感不适,更可能引发严重的健康问题,尤其是慢性病患者,这场“无声”的健康考验,该如何科学应对? 最近持续的高温、…

    一个巨伤大脑的小毛病,很多人却从没重视过

    为减肥饿过肚子的人,对低血糖症状肯定不陌生。 严重的饥饿感后,先是心跳加速、心慌手抖,感觉身体被抽空了力气,甚至冷汗严重到濒死感。 接着眼前突然一黑,耳朵轰鸣,周围的声音变得非常非常遥远…… 随之而来的可能还有大脑宕机,整个人直接失去意识,不知今夕何夕。图…

    加热3分钟产生几十亿,你每天吃的这个东西会损伤多个器官

    “叮——”微波炉发出熟悉的声音。 不用几分钟,昨晚的剩饭、凉了的外卖、打包的美食……就会恢复热气蒸腾的诱人模样。 但殊不知,伴随着美味同时入口的,还有数百万个“微塑料”!虽然不会直接“吃”塑料,但我们早已被塑料制品“包围”。 外卖盒、塑料袋、饮料瓶、奶瓶、…