看似加速,实则拖慢:AI 写代码让开发者效率倒退19%

article/2025/7/15 14:39:18

大数据文摘出品

美国METR研究所完成了一项针对AI编程工具影响的实验研究。他们发现,经验丰富的开源开发者在使用AI编程工具时,完成任务的时间平均增长了19%。

这与开发者自己的感知完全相反。毕竟,参与研究的开发者普遍都相信,AI将提升他们的效率。

在任务开始前,他们预测AI能让自己提速24%。可现实数据冷冷地指出:AI让他们“看似飞快,实则拖慢”。

图注:当研究参与者可以使用像 Cursor Pro 这样的AI工具时,任务实际上耗时增加了19%。

研究团队通过随机对照实验(RCT),在真实环境中测试AI工具的使用效果。值得一提的是,这是目前公认的衡量因果关系最严格的方法。

实验如何进行?

图注:实验设计。在分配条件前定义任务,通过屏幕录制验证执行情况,并利用专家与开发者的预测衡量预期与实际结果的差距。

实验共追踪了16名高级开发者,这些开发者在各自的开源项目中完成了246个实际任务,任务涵盖复杂模块的开发与修复,工作负载真实而具体。

每个任务被随机分配到两个组:一组使用AI工具,另一组不使用。

AI组开发者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。

开发者在整个过程中录屏,并记录完成每个任务所花费的时间。为了剔除任务难度差异的干扰,研究人员采用了统计方法,引入开发者对任务时间的预估值作为参考。

换句话说,他们不仅测量“花了多长时间”,还测量“比预期多了多少”。

最终结果显示:AI用户完成任务的平均用时比非AI用户长出19%。

讽刺的是,哪怕在任务完成后,那些用过AI的开发者仍然坚信,自己“节省了20%的时间”。

即便现实已经反转,他们依然觉得自己在加速。

研究者指出,这种“快感错觉”可能来自AI协助下的新型流程分布。研究结果表明,AI并没有真正提升核心产出环节的效率,只是重新分配了注意力和劳动方式。

具体来说,当AI工具被启用后,开发者在“主动编码”上的时间反而减少了。

他们花了更多时间在提示设计、AI产出审查、等待响应、闲置,以及理解生成内容上。

研究显示,开发者不是在写代码,而是在“与AI沟通如何写代码”。这种交互过程看起来很“充实”,但最终产出并不一定更快。

图注:在使用AI的情况下,开发者减少了编码和查找信息的时间,更多时间用于与AI交互和等待

对新项目或快速原型开发,AI确实能提供帮助。但在面对成熟的大型项目,特别是开源社区中常见的、结构复杂、规则隐含、质量要求高的工程时,AI反而成为新的负担。

它需要大量的补充说明、更频繁的审查,甚至还会引发语义误解。

开发者不再是在解决问题,而是在解释问题、矫正AI、并试图相信AI有帮助。

此外,开发者的“心理节奏”也发生了变化。他们频繁切换任务:提示生成、回顾产出、人工修正、重复尝试,这种流程非常碎片化。

当一个人忙于各种小动作时,他自然会觉得自己很“快”。但数据不会说谎:他只是“动了很多”,并没有“前进很远”。

还有哪些发现?

METR的研究不仅揭示了AI工具在实际工作中的真实效率,还对目前主流AI评估体系提出了质疑。

他们指出,当前业界广泛采用的基准测试,如SWE-Bench和RE-Bench,存在严重偏差。这些测试通常是人工设置的小型题目,情境孤立,完全不反映真实项目的复杂性。

开发者在其中只需解决一小段代码问题,不用考虑上下文、不用和团队协作,也没有历史遗留负担。

这种测试环境高度理想化,与开源项目、企业代码库、或大型框架开发的日常工作完全不同。

于是,我们就得到了一个错误的结论:AI表现得非常强大。

而METR的随机对照实验,则是在现实中运行、在项目中嵌入、在流程中测量。研究人员将AI直接部署到开发者的真实任务中,不干预流程,只记录结果。

这是对“AI助力”的最直接检验。

而且,这种实验还能揭示“感知偏差”:即人们在使用AI之后,对效果的主观判断如何偏离客观现实。这才是真正有价值的测试方法。

所以,如果AI让人“觉得自己更快”,却“实际上更慢”,那么其价值评估将被全面高估。

企业、教育机构、平台服务商,乃至政策制定者,都可能被误导。

研究还暗示,AI工具的价值可能不是“提高效率”,而是“改造流程”。它改变了工作的节奏、重构了问题表达方式、干扰了注意力分配。

地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

原标题:《看似加速,实则拖慢:AI 写代码让开发者效率倒退19%》

阅读原文

    本文为澎湃号作者或机构在上传并发布,仅代表该作者或机构观点,不代表的观点或立场,仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。


    http://news.xdnf.cn/wxHsHabqrx

    相关文章

    “上合智库高端论坛2025”在沪举行

    7月12-13日,“上合智库高端论坛2025”在上海政法学院中国—上海合作组织国际司法交流合作培训基地(下称“中国—上合司法培训基地”)举行。本次论坛为中方担任上合组织轮值主席国期间的系列外交活动之一,也是上合组织天津峰会召开前,来自上合国家智库专家学者、国际组织代…

    海沧启示②|千年文脉焕发新活力,与新生活共促城乡融合发展

    在厦门市海沧区,流淌千年的传统文脉,正以前所未有的活力,深度融入城乡融合发展的肌理。“清末民初,五祖拳宗师蔡玉明弟子沈扬德来到新垵开设武馆,化解了宗族堂口冲突,给新垵带来了团结和谐。”7月3日,新垵五祖拳省级非遗代表性传承人邱靖娜向澎湃新闻(www.thepaper.cn)…

    推动大金砖科技合作路径:开展小多边合作,建立风险监测机制

    2025年金砖国家扩容至11国,实现历史性扩容,体现了金砖国家同广大发展中国家团结合作的决心,符合新兴市场国家和发展中国家共同利益,也符合国际社会期待。金砖扩容不仅标志着金砖合作机制在全球版图上的地理延伸、全球影响力进一步扩大,在全球科技创新治理体系中的地位进一…

    可持续方法论|法国无碳氢战略重点在电解氢,布局储氢是关键

    在全球能源低碳转型过程中,除了提高电气化率、用可再生能源发电降低排放的路径以外,难以电力替代的领域将是碳减排的深水区。在这些领域,与绿电、碳捕获封存技术结合制备的低碳氢能将发挥重要作用,是未来优化能源结构、深度碳减排的重要新能源品种。现阶段低碳氢产业发展的…

    上海援藏:交往交流交融④文创为媒,小物件连起大情感

    【编者的话】今年是上海对口援藏30周年。30年来,上海援藏始终对标对表历次西藏工作座谈会要求,始终坚持“中央要求、日喀则所需、上海所能”相结合原则,先后十批次认真接续推进对口支援西藏工作。特别是第七次西藏工作座谈会和第四次对口支援西藏工作会议以来,在新时代党的…

    世俱杯“彩排”暴露诸多问题,美加墨世界杯的挑战远不止天气

    随着切尔西决赛击败巴黎圣日耳曼夺得冠军,改制后的首届世俱杯在美国落下了帷幕。从一项规模相对较小的赛事升格为媲美世界杯的大规模赛事,新版世俱杯创造了俱乐部赛事的历史,同时也留下了许多讨论与争议。尤其是明年美加墨世界杯就将上演,在作为世界杯“彩排”的世俱杯中出…

    美考虑向乌克兰提供巡航导弹,俄至少30个基地在射程范围

    据央视新闻报道称,当地时间7月14日,美国总统特朗普在会见北约秘书长吕特时表示,美国与北约当天达成了向乌克兰运送武器的协议。美国将向北约提供最先进的武器装备,美国会把最好的资源派给北约,由北约协调,以支持乌克兰。JASSM导弹(即AGM-158)采用隐身设计,具备较强的突…

    美国最高法为教育部裁员开绿灯,特朗普的废部计划仍遇阻力

    美国教育部总部大楼的标识。视觉中国 资料图特朗普政府正在推进教育部大规模裁员的计划,中途一度受阻,美国最高法院7月14日为该计划“开绿灯”,允许重启裁员计划,这为特朗普兑现"解散教育部"的竞选承诺扫除一大障碍。据新华社报道,今年5月,美国一名联邦法官下令…

    杭州两宗涉宅用地近30亿元成交,钱塘区下沙核心区地块溢价率12.75%

    7月15日,杭州市迎来2宗涉宅用地出让,根据成交结果,两宗地块均溢价成交,最高溢价率为12.75%,共计成交金额约29.86亿元。此次挂牌的地块分别位于余杭区和钱塘区,共计出让土地面积66243平方米,出让起始总价约为28.06亿元。按照出让公告,杭政储出[2025]88号地块即余杭区西站…

    下架多款口碑商品上架好丽友惹不满,山姆客服:遵循品质优先原则,消费者意见已反馈

    被网友质疑选品标准,登上热搜,山姆回应下架多款口碑商品上新好丽友。7月15日,“山姆下架多款口碑商品上新好丽友”登上热搜。澎湃新闻记者搜索山姆APP发现,网友热议的太阳饼、米布丁以及低糖蛋黄酥等回购率高的商品均已下架,无法显示。15日上午,澎湃新闻记者以消费者身份…

    长沙一消费者疑买到非标电缆,记者采访时遭公司负责人施暴砸坏摄像机

    长沙市刘先生向潇湘晨报晨意帮忙记者反馈称,他在长沙联东U谷的湖南丰旭线缆有限公司购买了一批2*2.5㎜及2*1.5㎜的电缆,为保证产品质量安全,他要求公司寄去一部分电缆至陕西协成测试技术有限公司进行检测,发现电缆不仅低于国家推荐标准,也并未达到该公司提供的企业标准。7…

    马上评|把救人说成“袭胸”,这种极端留言不该被放大

    近日,湖南衡阳街头,一名女子突发昏厥倒地,正巧路过的盘先生和另一名医生,一起轮流为女子实施心肺复苏。这本身是一件正能量的“暖新闻”,但是,经过个别媒体放大、传播犄角旮旯里的网友留言之后,新闻就变得怪异起来了。新闻报道提供的截屏显示,一名网友在新闻底下留言说…

    中科院上海生科院研究员季红斌加入西湖大学医学院

    西湖大学官网近日更新后显示,中国科学院上海生命科学研究院生物化学与细胞生物学研究所研究员、课题组长季红斌,已于今年6月加入西湖大学医学院,担任教授、博士生导师。季红斌1995年获得吉林大学学士学位,2000年获得中国科学院上海生命科学研究院生物化学与细胞生物学研究所…

    竞彩湃|国足能否捍卫最后的颜面,韩国队力阻日本夺冠?

    周二 001 四强赛中国VS中国香港竞彩SP数据 1.26 4.75 8.00-1 1.95 3.40 3.10国足前两场比赛输给韩国和日本并不意外,毕竟东亚杯比较现实的目标就是力争击败中国香港,阵容方面后腰高天意停赛,右后卫高准翼受伤,两人都无法参加比赛。相比于对阵日本的三中卫…

    莫德里奇在意的是世界杯,而AC米兰只想着捡漏

    刚刚结束世俱杯的征程,莫德里奇就马不停蹄飞赴米兰城,据AC米兰官方消息,克罗地亚传奇与俱乐部签约至2026年6月30日,同时拥有优先续约一年的权限。在莫德里奇到达米兰总部时,已经有大批球迷守候在此,并高喊“卢卡、卢卡(莫德里奇)”,莫德里奇也公开表达了自己加盟新球队…

    Meta超级智能实验室酝酿调整战略,或放弃开源转向闭源

    继挖走OpenAI一批华人前员工、超2亿美元薪酬将苹果AI模型团队负责人收入麾下,Meta新成立的超级智能实验室正酝酿人工智能战略重大调整。实验室新上任的28岁人工智能首席官Alexandr Wang已讨论放弃Meta的开源人工智能模型,转而开发闭源模型。为了推动超级智能的发展,Meta首席…

    西安高陵公布致1死1伤事故调查报告:企业未排污但被要求封堵排水口,建议交通局、环保分局书面检查

    7月2日,西安市高陵区人民政府官网发布“227”一般中毒和窒息事故调查报告,认定这起导致2名工人在市政雨水井内1死1伤的事故,是一起生产安全责任事故,相关企业经检查未被发现排污,但环保分局副局长要求其封堵排水口。事故调查组建议区交通运输局、环保高陵分局向区政府作出…

    程步一任广东省民政厅党组书记、副厅长,原为深圳市委常委、组织部长

    据广东省人力资源和社会保障厅微信公众号7月15日消息,广东省人民政府任免工作人员,其中任命程步一为广东省民政厅副厅长。此前,程步一已从深圳市委常委、组织部部长转任广东省民政厅党组书记。程步一程步一,男,汉族,1973年6月生,广东潮安人,1996年7月参加工作,1999年8…

    小津的电影:从“榻榻米镜头”到“纪子三部曲”

    提到日本电影,小津安二郎总是无法回避的。离世半个多世纪,小津和他的作品早已成为日本电影的一张经典名片。在日本国内,他影响了山田洋次、是枝裕和这样的“家庭系导演”。在国外,拥簇他的同行遍布各地,其中有来自德国的维姆文德斯和赫尔佐格、芬兰的考里斯马基、美国的贾…

    托尔金节亲历记:虚构的中世纪与活着的历史

    幻想文学如何创造传统,而传统又如何塑造未来五月末,我抵达德国北威州的Geldern,正逢一年一度的托尔金节。下火车后,我步行穿过一片林地,远远地看见草地上升起了帐篷,烟火缭绕,有人在河边磨面,有人在棚下用古式木工打造手斧,有孩子身着霍比特服饰在泥地上追逐。一时间,…