斯坦福最新研究:AI 的上下文比参数重要,无需重训、不再微调

article/2025/12/28 2:55:16

大数据文摘出品

近日,斯坦福大学与 SambaNova Systems 合作发表了论文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。

该论文提出了一个名为ACE(Agentic Context Engineering)的框架,可以让AI在不重新训练权重的前提下,实现自我改进。

论文链接:http://arxiv.org/abs/2510.04618v1

论文的核心思想是,大模型的能力,并非仅由参数决定,更取决于“上下文的质量”。换句话说,谁能构建出最优的上下文,谁就能让模型更聪明。

ACE的核心思想,是让模型不再依赖“静态提示(prompt)”,而转向一种动态、结构化、可进化的“知识剧本”(playbook)。

这些剧本记录了模型在任务执行中积累的策略、规则、模板和修正规则。每一次失败或成功,都会被转化为一条“增量更新”(delta)。

与传统的“重写提示”不同,ACE通过小步安全更新不断改进剧本,而不是一次性推倒重来。

这种机制意味着,AI可以在运行中学习、记忆、改进,而不需任何参数微调。

ACE框架

研究者指出,这一机制能避免两种致命问题:一是简化偏差(brevity bias),即在追求简洁的优化中丢失关键细节;二是上下文崩塌(context collapse),即重写导致的知识损毁。

论文举例称,在实验中,一个AI代理积累了1.8万token的上下文,表现良好。但当模型试图“总结压缩”它时,剧本被削减至仅122个token,性能瞬间跌至57.1%。

研究者直言:“模型擅长使用知识,但不擅长整理知识。一次错误的重写,就可能摧毁全部积累。”

论文称ACE解决了这种“自毁式学习”的结构性风险。

图注:ACE 框架在三类任务(智能体操作、领域知识、数值推理)上都显著优于其他方法,准确率提升最明显。

三角色协作:生成、反思、策展

ACE体系建立在一个极简哲学上:不要重写知识,要管理知识。

整个系统被拆解为三个互补的角色。

第一个是生成器(Generator)。它负责执行任务,与环境交互,生成推理过程、代码或操作序列。

第二个是反思器(Reflector)。它分析生成器的行动轨迹,识别成功与失败的原因,提取“可操作的教训”。这些反馈信号可能来自代码错误、执行结果或外部标签。

第三个是策展器(Curator)。它将这些经验提炼为结构化条目(delta context),并通过确定性规则(非语言模型决策)整合进主剧本。

这样的三层循环——行动、反思、整合构成了ACE的学习闭环。

每次更新都只影响局部条目,不触碰整体文本。这种局部增量机制,让知识库既能不断扩展,又不会坍塌。

剧本本身被设计为项目化结构:包含策略规则、API调用模板、调试经验、常见错误解决方案等。每条条目附带使用计数与正负反馈元数据。

反思器会根据这些记录判断哪些规则有效、哪些无用。策展器再据此修改或删除。

论文称,这种方式让AI的知识“像Git仓库一样演化”,能安全地生长、细致地修剪、透明地追溯。

研究者强调,ACE的复杂度并非负担,而是一种结构化的安全机制,以微小的系统开销换取知识的稳定积累。

小模型“越级打怪”:DeepSeek击败GPT-4.1

在复杂的AppWorld代理任务中,ACE框架带来了+10.6%的平均性能提升,并将适应延迟降低86.9%。

研究团队特别提到,这一提升并非依赖更大的模型,而是源于更好的上下文管理。

一个典型例子是:DeepSeek V3.1,参数量低于GPT-4.1。但在ACE框架下,它在AppWorld基准测试中,竟能与GPT-4.1代理(IBM CUGA)持平,甚至在更复杂的测试集上反超。

研究者指出,这一结果说明,“上下文工程”已成为新的算力平权器。

更重要的是,ACE的效率优势惊人。在多轮任务学习中,它的更新延迟减少82%~91%,token成本下降83.6%。

图注:在金融分析任务中,ACE 框架显著提升模型表现(平均提升约 8.6%),即使没有真实标签也能保持稳定表现。

论文认为,这让“在线持续学习”从概念变为现实。AI不再需要频繁微调,而可以在运行中自我优化。

同时,ACE的结构化剧本让学习过程可解释、可审计、可撤回。

如果某条规则被发现过时、偏颇或违规,系统可以精准删除对应条目,实现“选择性遗忘”。

注:头图AI生成

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

点「赞」的人都变好看了哦!

原标题:《斯坦福最新研究:AI 的上下文比参数重要,无需重训、不再微调》

阅读原文

    本文为澎湃号作者或机构在上传并发布,仅代表该作者或机构观点,不代表的观点或立场,仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。


    http://news.xdnf.cn/bRbIempixM

    相关文章

    如何定义生命:一场人类与AI的思想实验

    导语“生命是什么?”——这个问题横跨哲学、生物学与人工智能,是人类思想中最古老、也最开放的追问。今年5月,多伦多大学、谷歌与塔夫茨大学的研究者用大语言模型来重新审视人类对生命概念的理解。他们收集并分析了专家对“生命”定义的多种表述,通过模型的语义比较与聚类,…

    一克黄金卖2000+?年轻人正在为“痛金”交智商税

    一场关于“痛金”的消费热潮正席卷年轻群体。所谓“痛金”,即黄金品牌与热门动漫、游戏等IP联名推出的黄金饰品,它既是年轻人情感的载体,也被视为“能保值”的收藏新宠。数据显示,过去一年IP黄金品类线上成交额激增294%,超16个品牌与47个IP发起了53次联名,潮宏基、周大福…

    苏菲“有虫”事件洞察:正值双十一,曝出产品质量问题致命吗?

    如果卫生巾不卫生...“拆开苏菲安睡裤,竟发现活虫在爬动”,10月24日,这条带着实拍视频的投诉帖瞬间引爆全网,品牌方虽迅速道歉,但消费者的信任已受到严重冲击。这究竟是偶发事件,还是再次暴露的行业隐患?微杂谈 第15期顶流品牌塌房,双11战场突生变数截至10月29日,据知…

    男子投诉快递虚构寄达信息致老人跑空趟,重庆邮管局回应

    重庆忠县市民袁先生近日向澎湃公众互动平台“服务湃”(https://tousu.thepaper.cn)反映称,今年9月,他给家里老人网购了一批鲜活树苗,卖家通过中通快递发货。9月21日上午,袁先生查看物流信息发现快递已送达代收点,遂通知父亲去取。袁先生的父亲花了一个小时走路从村里赶到…

    注意力不集中,可能是大脑在“做扫除”

    晚上没睡好,第二天总是很难集中注意力,这可能是因为你的大脑正试图自我刷新,导致短暂的注意力缺失。相关研究10月29日发表于《自然-神经科学》。在睡眠期间,大脑会进行一个冲洗循环——脑脊液被反复冲入大脑,再从大脑底部流出。这一过程能够清除白天积累的代谢废物,否则会…

    吃蟹,还得是兴化

    吃蟹季,去哪里?不妨将目光投向产量更丰、肉质更实的螃蟹原乡——江苏兴化。这里是中国大闸蟹版图上不容忽视的产业重镇,数据显示,全国每八只大闸蟹中就有一只来自这里。纵横的河湖与规整的塘口交织成独特的水乡肌理,孕育出的不仅是饱满的蟹黄与鲜甜的蟹肉,更是一种根植于…

    把博物馆库房变成展厅?英国V&A东馆的开放式实验

    在传统的博物馆格局中,展厅与库房之间存在一道清晰的界限,展厅是面向公众的舞台,经过精心策展、作品挑选与灯光设计;而库房则是后台,往往与寂静、神秘、专业化的形象联系在一起。近年来,“开放式库房”模式逐渐兴起,不少博物馆将本应隐藏的收藏储存空间以某种形式向公众…

    “90后”周忠泽出任浙江温州洞头区副区长

    据“洞头区人大”微信公众号消息,日前,浙江温州市洞头区十五届人大常委会第三十次会议决定任命周忠泽为洞头区人民政府副区长。周忠泽(右)被任命为温州市洞头区副区长。图片来源:“洞头区人大”微信公众号此前,周忠泽担任温州苍南县藻溪镇党委书记、一级主任科员。据公开…

    环球展讯|埃及文物的热度与印象派的破冰

    历经20年建设,大埃及博物馆将于11月4日全面开放。馆藏文物超过10万件,首次完整集中展示法老图坦卡蒙的5000余件随葬品,此外还展出修复后的胡夫太阳船、拉美西斯二世巨像等文物。世界各地也正在举行多场埃及展览,值得关注。印象派是现代艺术的破冰者,而表现主义则是现代艺术…

    卡塔尔博物馆群举办两场特展致敬贝聿铭

    卡塔尔博物馆群(Qatar Museums, QM)是卡塔尔最具代表性的艺术与文化机构,自2005年成立以来,已发展为一个庞大的文化体系,涵盖8座博物馆、展览空间、公共艺术装置、创意枢纽、文化经济孵化平台与历史遗址。近日,该博物馆群呈现了两场贝聿铭特展:“建筑即人生”与“贝聿铭…

    看见人文之城|徐剑:把更多文化产品卖出去

    视频来源:文汇报(05:30)《看见人文之城》系列短视频今天推出第九集《把更多文化产品卖出去》,上海交通大学媒体与传播学院副院长、教授徐剑带你走进上海米哈游,聆听游戏出海的中国故事,到二次元商场逛一逛谷子店,感受引领文化潮流的“世界会客厅”如何演绎上海精彩。以人文…

    法国检方称卢浮宫盗窃案系“小偷小摸”所为,而非犯罪集团

    当地时间2025年10月19日,法国巴黎,警察站在卢浮宫附近,旁边是小偷用来进入卢浮宫的家具升降机。视觉中国 资料图法国卢浮宫博物馆10月19日遭蒙面人盗窃,该国检方11月2日表示,这起案件的嫌疑人是“小偷小摸”,而非来自有组织犯罪集团的专业人士。据央视新闻报道,法国检方…

    王凯已任江苏无锡市委常委、常务副市长

    据“梁溪发布”微信公众号消息,11月1日,2025世界物联网博览会专题活动之一,第三届空间信息产业无锡创新发展大会暨第五届空天地海一体化信息网络大会在梁溪举行。军事科学院、中国科学院院士尹浩,市委常委、常务副市长王凯致辞。上述消息显示,王凯已任江苏无锡市委常委、常…

    艺术类、高水平运动队、保送生、综合评价招生有何新要求?一文了解

    日前,教育部印发通知,部署做好2026年普通高校部分特殊类型招生工作。特殊类型招生主要有哪些?又有哪些新要求?《通知》中的特殊类型招生主要包括艺术类专业招生、高水平运动队招生、保送生、综合评价招生四类。高校开展艺术类专业招生工作有哪些新要求?高校艺术类专业招生…

    静安街头3x3篮球争霸赛落幕,塑造城市运动潮流新场景

    在上班和上香之间,他们选择在静安上篮。北京时间11月2日,2025静安街头3x3篮球争霸赛总决赛在上海久光百货外广场落幕,松江时间领主队获得最终冠军,新江湾城5%GYM队收获亚军。静安区体育局党组书记、局长马嘉槟,静安区体育局党组副书记邓铭一,静安寺街道办事处副主任俞海华…

    上海迪士尼迎来第一亿位游客,乐园主入口处将新建第四座酒店

    上海迪士尼上周迎来了自开园以来的第一亿位游客,度假区还将建设第四座主题酒店。11月3日,澎湃新闻(www.thepaper.cn)记者从上海迪士尼获悉,上海迪士尼度假区将新建第四座主题酒店,这一酒店将紧邻上海迪士尼乐园主入口,建成后将成为离乐园最近的迪士尼酒店。上海迪士尼度…

    法国经典电影修复展收官,上海影迷分享与老电影重逢的感动

    11月2日,为期十天的“法国经典电影修复展”在上海影城SHO迎来收官之日。13:00记者来到上海影城,克劳德勒卢什的传世之作《一个男人和一个女人》开场前,上海影城大厅里早已聚集了众多影迷,大家有秩序地排起长队,领取纪念票根、纪念明信片,盖上纪念章。不少影迷举着精美的票…

    马上评|水库放生猫,这哪里是“善”

    最近,部分网民和媒体反映清城区龙塘镇银龙社区迎咀水库附近发生疑似放生猫只行为,引起社会关注。11月2日,广东清远市清城区龙塘镇人民政府发布情况通报称,“经核查,现场山林发现有部分猫只,山路旁有遗留猫粮”,并且已经“安排工作人员定期巡查,并发动周边热心群众认领猫…

    冠军诞生,第二届海昏百戏擂台赛圆满落幕

    江西广播电视台(集团)党委书记、台长、董事长龚荣生,南昌市政府副市长高辉红,南昌汉代海昏侯国遗址管理局党工委书记夏清平,管理局党工委副书记、局长彭印䃂出席活动并颁奖。南昌市文学艺术界联合会党组书记万晓东,管理局党工委委员、副局长张伟,南昌市文化广电旅游局三…

    言短意长|历史的警讯

    11月2日,深秋的北大,一场聚焦中国抗战全球意义的国际学术研讨会被两岸主流媒体高度关注。当天,“全球视野下的中国抗战”国际学术研讨会在北大举行。当天深夜,“北平锋”以《台湾不能再吃战争的苦》为题释读这场国际学术研讨会的必要性和重大学术意义。文章援引了两位重量级…