哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?

article/2025/5/12 17:04:33

原创 文摘菌 大数据文摘

大数据文摘出品

近日,来自哈佛大学、布朗大学以及图宾根大学研究者们,共同发表了一项关于Transformer模型与人类认知处理相关性的研究论文:

——《Linking forward-pass dynamics in Transformers and real-time human processing》

意译过来就是:Transformer模型的“思考过程”与人类大脑实时认知的奇妙相似

换句话说,它想搞清楚一个“老问题”:AI模型的内部处理过程,和人类大脑的实时认知,有多少相似?

过去我们研究AI和人类的相似性,最常见的做法是什么?“看结果”:让AI做题,看它答对多少,概率分布和人的选择对不对得上。例如,让GPT写作文、识别图片、做逻辑推理,然后对照人类的数据,得出一个“AI越来越像人了”的结论。

但这其实只是表象。

想象一个场景:在答一道不太确定的选择题,先想到了一个看似正确的选项,但又觉得不太对,犹豫半天,才最终敲定答案。AI模型也一样,也许在中间某一层,更倾向于一个“直觉答案”,但再往后,才被训练出来的知识“纠正”了过来。

问题来了:AI和人类,不只是最后的选项,连中间的“挣扎”和“转变”也能被对齐吗?

这篇论文的作者,换了个角度:不只看AI模型的输出,还要扒一扒Transformer每一层的“处理动态”,与人脑处理信息的“实时轨迹”是否能对上。

01 AI和人脑,真的在“想”同一件事吗?

图注:方法概述。用Transformer模型中得出的过程性指标预测人类处理负荷和行为反应指标的能力。

论文作者把Transformer每一层的输出和变化都做了记录,提出了一系列“处理负载”的指标:

不确定性(entropy)

信心(log probability)

相对信心(正确vs直觉答案)

boosting(模型在某一层对正确答案的主动“拉高”)

这些东西听起来很技术,但可以简单理解为:AI每一层都在“思考”,每过一层,它对答案的信心发生了一点点变化。

有的题,AI一上来就很有把握,信心很快升高;有的题,AI在中间反复徘徊,甚至先押错,再修正。

这和我们人类做题的“熟练-犹豫-反应慢-反悔-最终确定”是不是很像?

02 实验结果:AI和人类“走弯路”的相似瞬间

图注:研究中分析的人类任务示意图。(a) 回忆(自由回答)首都名称。(b) 识别(强制选择)首都名称。(c) 通过鼠标移动对典型和非典型动物实例进行分类(Kieslich 等, 2020)。(d) 判断三段论推理的逻辑有效性。(e) 对分布外图像进行物体识别。

论文做了几个个实验,分别对应不同的认知任务和人机对比:

①“首都杀手题”——AI和人类的集体下意识。

图注:研究1a(回忆首都),Llama-2 7B模型。(a)-(d) 基于模型各层计算的处理指标。(e) 各指标相较于基线模型的BIC差异。数值越高越好。星号表示统计显著。

比如,美国州首都题。这题在答题界有个绰号,叫“首都杀手”:

出题人问:“伊利诺伊州的首都是哪?”

人类几乎下意识地想说:“芝加哥!”

然后突然一个激灵,想起,“不对,是斯普林菲尔德!”

以为这样的“反转”只有人类会有?其实AI也会!

论文里的Llama-2模型,每一层都像个小AI脑细胞在投票。结果显示:在模型的中间层,AI的信心值一度“押宝”在芝加哥上,就像脑海里那个脱口而出的错误答案。可到了后半程,随着层数加深,AI忽然“刹车”,把信心转回了斯普林菲尔德。这就是AI和人类都在“下意识→反思→修正”的本能流程里打了个滚。

更绝的是,有的试题AI和人类都“执迷不悟”。比如问“澳大利亚首都”,一堆人写悉尼,一堆AI也把概率压在悉尼上,最后才有一部分“觉醒”,想起是堪培拉。

②“鲸鱼归属”——鼠标和神经元一起漂移

图注:研究2(动物实例分类),Llama-2 7B模型。(a)-(d) 基于模型各层计算的处理指标。(e) 各指标与基线模型的BIC差异,数值越高越好。星号表示统计显著。

再看动物分类题。问:“鲸鱼是鱼还是哺乳动物?”人类是不是脑子里先蹦出来“鱼”,又觉得哪里不对,才慢慢改口?

人类实验里,受试者的鼠标先朝“鱼”方向飘过去,走了一小段“弯路”,再折回“哺乳动物”,画出一条漂亮的“纠结弧线”。

AI模型内部,“信心”指标在前几层也更偏向“鱼”,直到后面层数才被训练出的知识拉回“哺乳动物”。

有趣的是,AI和人类不仅选项重合,连“走神”的路径也同步:人类在鼠标上徘徊的那一秒,AI在网络里也“犹豫”着。

03. “逻辑陷阱”——AI和人类被套路的瞬间

图注:(三段论推理中的内容效应),Llama-2 7B模型。(a)-(d) 针对逻辑结果与先验信念一致的题目,基于模型各层计算的处理指标。(e)-(h) 针对引发“内容效应”的题目(即逻辑结果与先验信念不一致),基于模型各层计算的处理指标。(i) 各指标及数据子集与基线模型的BIC差异,数值越高越好。由于EntropyLayer和BoostLayer在所有题目中的数值相同,因此未进行比较。

再来点烧脑的。经典的三段论逻辑推理题:

“所有A是B,所有B是C,那么所有A是C吗?”

人类本来逻辑在线,但题目稍微掺点“常识偏见”,比如“所有有翅膀的动物会飞,所有会飞的动物能上天,所以所有有翅膀的动物都能上天吗?”大脑会直接被“常识”带偏。

AI也是。论文里发现:只要题目设计得足够“绕”,AI和人类一样,都在中间层“陷入迷雾”,先押宝在那个直觉答案上,过了几个“脑回路”,才慢慢拉回正轨。

04. “图片辨认”——AI和人类都在“雾里看花”

图注:OOD物体识别,ViT-Base模型。(a)-(b) 基于模型各层计算的处理指标。(c) 各指标分组与基线模型的BIC差异,数值越高越好。

视觉任务上也是同理。比如一张加了马赛克或奇怪滤镜的猫咪图片,问“这是啥?”你可能先说“狗?”,再揉揉眼睛,才发现是“猫”。

AI的Vision Transformer也是这样,刚开始层级信心分布很分散,也许更偏向“狗”,但随着层数推进,才慢慢聚焦到“猫”这个类别。

有没有发现?AI和人的“迷茫-清醒”过程竟然如此一致。

03 OMT:应该关注AI内部的“思考过程”

我们一直用AI做“黑箱”——输入-输出,像函数一样。但这篇论文告诉我们,也许更值得关注的,是AI内部的“思考过程”。

AI在遇到难题时,真的会“走弯路”,和人一样“卡壳”;不同的任务,不同的模型规模,AI的“思考路径”也会变化;这种“动态过程”不是专为模仿人类设计,而是AI自然训练出来、为了完成任务自己学会的“捷径”;

这意味着,也许我们能用AI,去发现哪些刺激、哪些设计会让人类更难处理,甚至反向指导人类实验设计。

输出只是终点,过程才是灵魂。

原标题:《哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?》

阅读原文

    本文为澎湃号作者或机构在上传并发布,仅代表该作者或机构观点,不代表的观点或立场,仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。


    http://news.xdnf.cn/hrSJLaYeKD

    相关文章

    珠峰窗口期5月开启 普通人登一次有多烧钱?

    原创 四象工作室 四象工作室曾经,勇士征服地球之巅的事迹只存在于新闻中,但自从上世纪90年代开始进入商业化攀登时代,越来越多寻求极限挑战和商业形象加持的冒险家涌向世界最高峰,珠穆朗玛峰正以令人瞩目的速度转型为一项吸金的旅游产业。 由于每年6~9月是珠峰的雨季,10月…

    中医的千年传承:网络科学描绘其演化之路|PNAS速递

    原创 集智编辑部 集智俱乐部摘要 现代技术系统的演化常常源于新旧技术的重组。尽管传统中药(TCM)已被使用了数千年,作为以实践经验为基础发展的技术,其演化特征是否与现代技术系统一致呢?最新发表在PNAS的一项研究,通过量化分析两千多年来59063种记录在案的中药方剂,尝…

    人大新闻教育70年丨16759门课程里的时代密码

    原创 人大新闻系 RUC新闻坊 中国人民大学新闻学院今年70岁了。 70年来,学院的大事纪有很多,但对每一个人大新闻人而言,具体而微又印象深刻的记忆触发器是课堂。专业的新闻传播理念、思维、知识、经验,正是经由每一堂课流向人大新闻学生。 教学方案是个体记忆的史书,也是…

    80后莆田市文旅局长马骏登台与杨宗纬合唱,“演唱会秒变旅游推介会”

    5月11日晚,在福建莆田的一场演唱会上,“80后”干部、莆田市文化和旅游局局长马骏登台亮相,与歌手杨宗纬同台献唱,并借机推介了当地文旅。据莆田本地媒体报道,11日晚,“魅力山海 灵秀莆田”2025年莆田超级 LIVE 演唱会在市体育中心启幕,张韶涵、苏有朋、杨宗纬、萧敬腾四…

    上海国际电影节特设“今日亚洲”单元

    上海国际电影节长期以来一直立足亚洲视角。不仅早在2004年创立了亚洲新人单元,持续支持亚洲电影和新人的发展,今年更是在影展中特别设立“今日亚洲”单元,以梳理知名亚洲电影作者,盘点最新的亚洲电影佳作,呈现亚洲电影的多元面貌。“年度亚洲电影”将本年度不可错过的电影…

    季后赛主场优势消失之谜,这事竟然要赖库里

    东部半决赛前6场,在主场作战的球队0胜6负。当步行者队领先骑士队35分时,主场球迷喊出了“我们要波士顿”的口号。爱在主场整活的球迷不在少数,但类似今天这样的场景,却从未出现在本赛季的东部半决赛。并非球迷不热情,而是直到步行者队129比109大胜骑士队,才让主场球迷有了…

    学者纠错遭网暴,人民锐评:“饭圈”该走出畸形的怪圈了

    近日,江苏省红楼梦学会会长、南京大学文学院教授苗怀明碰到一桩烦心事。事情起因是在越剧演出中饰演贾宝玉的青年演员,在接受采访时误称“贾宝玉是长子长孙”,作为“红学”专家的苗怀明,因为公开纠正这一说法,持续遭遇网暴,“铺天盖地的网暴直到演员致歉也没有停止。”青…

    水豚“豆包”出逃已40天,扬州茱萸湾景区追加悬赏

    5月11日,扬州市茱萸湾风景区管理处发布一则悬赏公告,希望尽快找回已出逃40天的卡皮巴拉“豆包”。公告中提到,“豆包”身上无危险武器亦无攻击性,但越狱性质恶劣,必须严惩以震慑其他蓄意逃笼的“毛孩子们”。茱萸湾动物园特别悬赏,凡提供“豆包”出逃有效信息者均可获赠茱…

    长沙通报一出租房疑存非法代孕:查封涉事场所,相关人员被控制

    责任编辑:王卉澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    美元指数上涨超1%重返101上方,创1个月新高

    中美日内瓦经贸会谈联合声明发布后,美元走强。Wind数据显示,5月12日下午3时,美元指数由近100.67瞬时上涨至100.89,随后一路走高,最高报101.7291。截至发稿,美元指数报101.6742,日内上涨1.25%,创1个月来新高。此前,受特朗普政府关税政策等因素影响,美元指数一路走低。…

    人民币对美元即期汇率盘中创半年新高,离岸市场升破7.2

    人民币迎来大涨。5月12日,人民币对美元即期汇率开盘大涨超200点报7.2250。15时中美日内瓦经贸会谈联合声明发布后,人民币对美元即期汇率盘中最高升至7.2001,较前一交易日7.2461的收盘价大涨460点,创下去年11月中旬以来的半年新高。更多反映国际投资者预期的离岸人民币对美元…

    《广州大典研究》集刊发展座谈会:“广州学”的传承与创新

    2025年4月30日下午,“典籍传承与青年力量:岭南文化的守正创新——《广州大典研究》集刊发展座谈会”在广州图书馆成功举行。此次学术盛会由广州大典研究中心主办、广州图书馆协办,汇聚中山大学、暨南大学、华南师范大学、华南农业大学、广东工业大学、广州大学、广州中医药大…

    区域国别学视域下的东亚文化交涉

    2025年5月10-11日,由浙江工商大学东方语言与哲学学院、东亚文化交涉学会主办,浙江工商大学东西文明互鉴研究院、浙江工商大学日本研究中心承办的“区域国别学视域下的东亚文化交涉国际学术研讨会暨17届东亚文化交涉学会大会”在浙江工商大学下沙校区顺利召开,来自北京大学、…

    60余年产业积累,“江苏绿心”金湖炼就“超级石油工具箱”

    春夏之交,地处江淮平原的淮安市金湖县将迎来一场盛会。第五届淮河华商大会即将在淮安举办,作为分会场,金湖将力邀来自各地的优质客商参会,围绕石油机械产业,共谋创新发展大计。金湖位于南京市区以北100公里处,是一座因水而生的城市,被高邮湖、白马湖、洪泽湖三湖环绕,蜿…

    山东枣庄同一站点两名饿了么骑手先后猝死,当地热线:职能部门正调查

    5月12日,山东省枣庄市台儿庄区的周女士向澎湃新闻(www.thepaper.cn)反映,她的丈夫袁某和妹夫梁某是饿了么台儿庄站长安路店的骑手。不幸的是,两人前不久先后猝死,死因均为“呼吸心跳骤停”。周女士怀疑两人的猝死与高强度的工作有关。涉事平台站点(图源:封面新闻)12日…

    观众走入剧院空间,人艺之友一起“再造时光”

    5月10日至11日,北京人民艺术剧院联合东城区委区政府主办的2025“人艺之友日”主题活动正式开启,邀请广大人艺观众在周末走入剧院空间,共度戏剧时光。观众在“时光列车”车厢回忆北京人艺历史剧目“人艺之友日”主题活动于2023年北京人艺建院71周年之际首次开设,旨在与观众分…

    《新时代的中国国家安全》白皮书(全文)

    国务院新闻办公室12日发布《新时代的中国国家安全》白皮书。全文如下:新时代的中国国家安全(2025年5月)中华人民共和国国务院新闻办公室目录前言一、中国为变乱交织的世界注入确定性和稳定性(一)世界在新的动荡变革中站在历史的十字路口(二)亚太在总体稳定中面临严峻挑战…

    甩掉“肥胖刺客”,科学减重指南来了

    原创 掌健识 上海市医学会掌健识 做健康的传播者,一路同行,一起成长2030年我国成人超重肥胖率将达到70.5%,儿童超重肥胖率将达到31.8%。肥胖早已不是简单的“身材焦虑”,而是潜伏在生活中的“健康刺客”。这些关于科学减重的真相,你都知道吗?一、“肥胖刺客”不仅仅是美…

    27岁杨阳拟任苏木镇党委副职,系2020年内蒙古自治区选调生

    5月9日,内蒙古自治区锡林郭勒盟阿巴嘎旗委组织部发布拟任干部公示。其中,现任查干淖尔镇一级科员杨阳拟任苏木镇党委副职。公开资料显示,杨阳,女,汉族,1998年2月生,大学,管理学学士,中共党员。杨阳系2020年内蒙古自治区选调生,于2021年1月参加工作。她长期在锡林郭勒…

    超新星|罚丢点球的那道坎,刘诚宇靠自己迈了过去

    【编者按】或许直到现在,很多球迷依然在为2月22日亚青赛四分之一决赛主场0比1被沙特队绝杀而遗憾,这是近10多年时间国青队距离世青赛最近的一次,命运仿佛和中国足球又一次开了一个玩笑……然而这支球队注定会在最近几年时间被球迷所铭记,不仅仅因为这一份遗憾,还有这支球队…