中青报刊文:大模型成为“考试明星” 意味着什么

article/2025/7/6 7:18:19

得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。

AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名在前80位左右,甚至有望考上清华、北大。这只不过是大模型成为“考试明星”的最新一例。根据多份报告,人工智能系统已展现出通过大学入学考试及其他学术评估的能力。例如,ChatGPT通过了美国法学院和商学院的考试;同时,GPT-4模型能够通过大多数STEM学科的评估,并在回答问题时实现高准确率。

人工智能通过这些考试的能力,引发了对教育的未来以及如何更好地培养学生掌握那些仍具有人类特质的技能的思考。

大模型的考试成绩意味着什么

首先,这可以理解为规模化的模式识别的成功。大模型在识别和再现语言、推理和问题解决方面表现卓越。纵观大模型通过的考试,通常结构清晰,格式固定,答案可以通过文本线索得出——而这正是大模型接受训练的强项。

其次,大模型拥有广泛的训练数据来源,这使得它容易在考试中脱颖而出。许多考试题目与教材、辅导材料或历年试题中的内容高度相似,可能出现在模型的训练语料中,或在结构上与之类似。

再次,大模型实现了任务无关的通用性。通过这些考试的能力表明,大模型是通用型语言处理器——它们无须重新训练就能在法律、医学、STEM等领域间切换,这在系统设计层面非常了不起。

尽管成就不俗,我们也不必夸大大模型对人类考生的威胁。因为,考过并不等于“理解”,大模型的“成功”多是统计上的匹配,而非概念性的掌握——它们并不“知道”答案为何正确。

大模型还缺乏真实的推理基础。如USMLE(美国医生执照考试)默认考生具备现实世界的经验积累和伦理判断能力。大模型即使答对了题,也缺乏具身认知或临床直觉。

我们还需认识到,大模型不存在原生的学习过程。它们并不会像人类那样通过学习获得知识——机器人不会因误解而苦恼,也不会主动反思,更不会随着时间内化意义。

多元智能理论与大模型的考试表现

教育心理学家霍华德·加德纳认为,智力是多元的,不能仅用传统智商或考试成绩来衡量。根据加德纳的智能类型,我们会发现,大模型的能力展现参差不齐:

在语言智能,即使用语言进行阅读、写作方面,大模型表现优秀。

在逻辑-数学智能,即抽象推理、问题解决、模式识别能力方面,大模型表现良好,对于数学题、逻辑题等结构化问题的解答能力十分强劲,尽管在复杂推理中仍有不稳定性。

在视觉-空间智能,即在头脑当中想象和操控物体的能力方面,大模型功能有限:纯文本模型本身不具备视觉-空间推理能力,多模态模型(拥有视觉能力)正试图在一定程度上对此加以改善。

在身体-动觉智能,即控制身体动作、保持身体协调能力方面,非常遗憾,大模型付之阙如——它本身没有身体,也无法展开物理体验或动作。

在音乐-节奏智能,即对音高、节奏、旋律的敏感度和创作能力方面,大模型可以模仿歌曲或分析音乐理论,但缺乏真正的听觉体验与音乐直觉。

在人际智能,即理解他人情感、动机、关系的能力方面,大模型能模拟同理心,但没有真正的社会意识、情感或动机。

在自我认知智能,即自我觉察、情绪反思和自我理解的能力方面,大模型没有自我,并不像某些人声称的那样获得了自我意识、目标或主观经验。

最后,在自然观察智能,即识别自然界模式、给出生物分类的能力方面,大模型可以检索事实,但缺乏对自然环境的直观感知与互动能力。

经由这些对比,我们可以发现,大模型在语言和逻辑智能方面表现卓越,但加德纳强调具身性、情感性和经验性的广泛智能,这是大模型在结构上无法胜任的。

另一方面,从模拟与体验的关系来看,大模型可以模拟某些智能(如共情或音乐创作),但缺乏真实的经验基础,而加德纳的智能理论强调智力的发展与现实世界的互动密不可分。

教育上的反思:过度依赖大模型的害处

从教育评估的角度看,人工智能不断提升的考试能力,引发了对学术诚信和潜在滥用的担忧,促使教育工作者不得不重新思考传统评估方法。

不过,我们也可以看到,尽管人工智能可以通过识别模式并生成正确答案来通过考试,却并不一定意味着其对考试内容的理解与人类相同。人工智能在语言处理以及需要“常识”或主观解读的问题上仍面临挑战。今天,我们可以心存侥幸的是,人工智能还难以应对需要深入理解、批判性思维或个人反思的复杂或微妙问题。

这表明,理解意义是人类独有的能力,而目前的人工智能系统仍缺乏这种能力。“高考出色”的机器人其实与一些学生非常相似,他们吸收知识,然后照本宣科,根本不理解其中的含义。所以,机器人超越这类学生毫不足奇。

多元智能理论主张因材施教、发展多种能力。如果学校在教育中过度依赖大模型完成写作或数学等任务,可能会忽视身体性、人际交往和情感成长这些对人类发展至关重要的领域。

所以,必须思考一种新型的教育。如果大模型都能通过为人类设计的考试,教育工作者就迫切需要重新思考考试的目标——不应只评估机械记忆或格式化的解题能力,还应涵盖创造力、判断力与情感智能。

与其惊叹于高级的人工智能水平,不如说“机器人考生”揭示了考试本身的结构与局限性。我们的确打造了强大的工具,但它们终究只是工具。这些模型可以成为强大的教学助手,但若将它们完全替代医学、法律等领域的专业人员,可能带来伦理和安全隐患。

大模型能通过各种考试,是工程复杂性的里程碑,但并不是与人类认知能力等价的标志。人类未来将如何与人工智能共存,是我们必须基于确凿证据认真思考的问题。同时,我们要尽快思考,因为时间不多了。

(作者系北京大学新闻与传播学院教授)

    责任编辑:张珺
    图片编辑:陈飞燕

    http://news.xdnf.cn/VbTMlIQFWD

    相关文章

    哥伦比亚及乌兹别克斯坦成为金砖国家新开发银行正式成员

    当地实际7月5日,金砖国家新开发银行在巴西里约热内卢举行的新闻发布会上宣布,批准哥伦比亚和乌兹别克斯坦成为该银行正式成员。金砖国家新开发银行是由金砖国家共同倡议建立的国际性金融机构,总部位于中国上海。新开发银行成立的主要目的是为金砖国家及其他新兴经济体和发展…

    伊朗互联网出现中断

    2025年6月30日,伊朗德黑兰北部,两名年轻伊朗女性走过伊朗国旗。视觉中国 资料图总台记者7月6日凌晨获悉,伊朗互联网部分基础设施网络的国际链接出现问题,该国大部分互联网服务提供商出现网络中断。目前伊朗官方暂未就此回应。责任编辑:王卉图片编辑:陈飞燕澎湃新闻报料:…

    时隔57年,印度领导人访问阿根廷

    当地时间7月4日晚,印度总理莫迪抵达阿根廷首都布宜诺斯艾利斯开启对阿国事访问,这是自1968年甘地访问以来印度领导人再次访问阿根廷。5日,阿根廷总统米莱在总统府会见了莫迪,两人的会谈议题主要集中在农业、锂矿、能源和核能等战略领域的贸易合作。莫迪之后会前往巴西,出席…

    下周访英,法总统马克龙与英首相斯塔默通话

    资料图当地时间7月5日,据英国首相府消息,英国首相斯塔默与法国总统马克龙通话,斯塔默表示期待下周在英国迎接马克龙的到访。双方一致认为,此次国事访问将是一次具有历史意义的机会,充分展示英法关系的广度与深度。在谈及即将举行的会晤时,两位领导人希望在包括移民、经济…

    马斯克宣布“美国党”成立

    当地时间7月5日,埃隆马斯克在社交媒体平台上发文称,“美国党”于当日成立,以还给人民自由。近期马斯克与美国总统特朗普,就“大而美”税收和支出法案产生分歧。6月30日,马斯克猛批特朗普力推的所谓“大而美”税收和支出法案并表示,如果法案通过,第二天就会成立“美国党”…

    以媒:以色列谈判小组将赴多哈与哈马斯谈判

    当地时间2025年7月5日,加沙,巴勒斯坦民众努力维持日常生活。视觉中国 图新华社耶路撒冷7月5日消息,以色列官员5日向多家媒体披露,以色列政府将派出一个谈判小组,前往卡塔尔首都多哈,与巴勒斯坦伊斯兰抵抗运动(哈马斯)就加沙地带停火进行谈判。以色列公共广播公司援引一…

    8个主要产油国决定8月继续增产

    当地时间7月5日,石油输出国组织(欧佩克)发表声明称,欧佩克和非欧佩克产油国中的8个主要产油国决定8月日均增产54.8万桶。开采石油(资料图)沙特阿拉伯、俄罗斯、伊拉克、阿联酋、科威特、哈萨克斯坦、阿尔及利亚和阿曼的代表当天举行线上会议,讨论国际石油市场形势及前景…

    美国得州洪水致死人数升至27人

    7月4日,在美国得克萨斯州克尔维尔,一名男子在瓜达卢普河沿岸查看。新华社/美联新华社休斯敦7月5日消息,美国得克萨斯州中部克尔县警察局长拉里莱萨5日说,当地4日因暴雨引发洪灾的致死人数已升至27人,其中包括9名儿童。在河水暴涨的瓜达卢普河沿岸,逾20名参加夏令营活动的…

    旅客突然跳入股道致G7545次列车晚点,铁路杭州站通报

    7月5日晚,上海铁路局杭州站官方微博发布通报,7月5日16时34分许,G7545次列车驶入杭州东站即将停靠25号站台时,该站台一旅客突然跳入股道。列车立即采取紧急制动措施,因距离较近刹车不及同该旅客发生碰撞。车站工作人员第一时间联系120急救中心,将该旅客送医救治。G7545次列…

    焦点访谈丨人脸识别技术的适用边界在哪?新规实施后带来哪些变化?

    人脸信息与人体的其他生物特征,如指纹、虹膜等与生俱来,具有唯一性。这些关键信息一旦被泄露或被不法利用,容易造成较大风险和危害。近日,国家互联网信息办公室、公安部联合公布的《人脸识别技术应用安全管理办法》正式实施,这是我国首部专门针对人脸识别技术应用的综合性…

    “80后”吕捷出任中国人民大学农业与农村发展学院院长

    据中国人民大学农业与农村发展学院官网6月25日消息,日前,学校党委研究决定:免去曾丙健同志的农业与农村发展学院党委书记职务,任命李铭同志为农业与农村发展学院党委书记;任命吕捷同志为农业与农村发展学院院长、党委副书记。其中,新任中国人民大学农业与农村发展学院院长…

    美国得州洪水逐渐退去,20余名女童仍下落不明

    当地时间7月5日,美国得克萨斯州瓜达卢普河附近地区的洪水正逐渐退去。据当地官员通报,目前已有至少237人获救。在该地区参加夏令营的20多名女童仍下落不明。责任编辑:王晓峰澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    广西文旅厅副厅长班华勤履新崇左市委常委

    据微信公众号“崇左融媒”消息,7月4日,崇左市委常委班华勤到市融媒体中心调研,看望慰问一线新闻工作者。这也意味着,此前担任广西壮族自治区文旅厅党组成员、副厅长兼自治区文联副主席的班华勤,现已履新崇左市委常委。公开资料显示,班华勤,男,1973年5月生,壮族,广西河…

    杜平已任哈尔滨市卫健委党委书记,此前曾任五常市委书记

    近日,黑龙江哈尔滨市卫生健康委员会(以下简称“市卫健委”)官网更新信息显示,杜平已任哈尔滨市卫健委党委书记,主持全面工作。此前,杜平曾任五常市委书记等职。公开资料显示,杜平,男,汉族,1970年1月出生,中共党员,市委党校研究生。他长期在哈尔滨市工作,曾任哈尔滨…

    60396人,0比0,“苏超”一场比赛诞生两项纪录

    “苏超”诞生了首场0比0平局的比赛。图片 赵昀在60396名现场观众的注视下,“苏超”诞生了首场0比0平局的比赛。北京时间7月5日晚,2025赛季“苏超”第6轮在南京奥体中心体育场展开角逐,南京队主场迎战苏州队。官方统计显示,本场比赛共有60396名观众来到南京奥体中心现场观战…

    上海乐高乐园配套商业街运营首日约100家品牌店集中开业

    中国首座乐高乐园——上海乐高乐园度假区7月5日开园,与乐园同步开业的上海乐高乐园度假区配套主题商业街“爱琴海・缤纷里”情况如何?澎湃新闻(www.thepaper.cn)从上海市金山区获悉,7月5日,金山区委书记刘健走访调研了“爱琴海・缤纷里”,重点检查运营首日安全生产和服务…

    这些“苏超”数据告诉你,中国足球应该打好哪些基础

    “苏超”单场观众人数再创新高,首次突破6万人。7月5日晚,南京队在主场南京奥体中心体育场迎战苏州队,60396人现场观赛,刷新江苏省城市足球联赛(简称“苏超”)纪录。外加同期举行的另外两场“苏超”比赛,第6轮“苏超”的场均观众人数已达到3.9万人,与全球最顶级的专业足…

    万科:两笔银行贷款延期一年,余额合计约4.47亿元

    7月4日,万科企业股份有限公司(000002.SZ)发布关于担保进展情况的公告,两笔银行贷款均延期一年,余额合计约4.47亿元。公告显示,2022年,万科的控股子公司Lotus Real Estate Investment Limited(简称 “Lotus”)向UNITED OVERSEAS BANK LIMITED(大华银行有限公司)(简称…

    60396人:南京主场迎战苏州刷新“苏超”观众人数纪录

    60396人——7月5日晚,江苏省城市足球联赛单场入场观众人数再创新高。当晚,“苏超”第六轮赛事打响。南京队在主场南京奥体中心迎战苏州队,这是江苏综合实力最强的两个设区市之间的较量,被网友称为“焦点之战”。据现场播报,入场观战人数达60396人。南京队对战苏州队比赛现…

    马上评丨商场公示预付费商户的租赁期,希望成为常态

    最近,杭州西湖区一家大型商场,公示了该商场内所有预付费店铺名单及店铺租赁合同到期时间的信息。告示牌以“预付费卡消费风险告知书”为标题,公示了商场A座和B座所有预付费租户,还按照教培类和娱乐配套美业类进行分类公示清单。此举引发了网络热议。商场公示“预付费卡消费…