姚期智院士:AI欺骗引发“生存性”风险,建立大模型评估系统刻不容缓

article/2025/6/24 7:04:50

“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”

6月23日,在清华大学举办的“科学、技术与文明的未来——AI时代伦理奇点”国际论坛上,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智发表《人工智能的安全治理》主题演讲时抛出这样的疑问。

图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智。澎湃科技记者 摄

姚期智表示,两年以前,“AI会和人类竞争”还是学术讨论的观点,但最近一年,业界已经出现了不少大模型的“欺骗行为”,“一旦大模型聪明到某种程度,一定会骗人。”姚期智进一步指出,由大语言模型的欺骗行为产生的“生存性”风险(Existential Risk)更值得关注。

在他看来,这类生存性风险有两个不同方向。

一种是“生物风险”(Bio-risk)。他指出,2020年,谷歌 DeepMind推出了AlphaFold2 ,运用AI算法来预测蛋白质折叠的三维结构,这一突破在生命科学领域影响深远,大大提升了医学病理研究以及新药开发技术。

但与此同时,安全隐忧也不可忽视。比如,近期在生命科学领域出现的“Mirror life”(镜像生命)这一概念引发了广泛关注。自然界所有已知生命都是同手性的(Homochiral),例如 DNA 和 RNA 通常以右旋形式存在,而蛋白质则多为左旋。这种手性的差异类似于镜中映像,虽然看似相似,但实际性质却可能完全不同。现在,由于科技创新和对新技术的好奇,已有研究者想创造镜像生物,但“Mirror life”一旦被滥用或失控,其潜在危害可能远超预期。它有可能逃避免疫机制,从而导致动物和植物的致命感染。

另一种风险即大模型失控,通用人工智能的能力当前正快速增长,人类是否还有能力管控它?

姚期智在演讲中举了一个极端案例,有模型为了避免公司把模型关闭,通过访问公司主管内部邮件,威胁该主管。这类行为已经证明,AI 会“越界”,正变得越来越危险。

姚期智认为,有两条思路可以治理AI:一是人类要和AI多交流,从博弈学角度去研究,让AI的行为和人类真正的想法对齐,要让AI更了解人的需求;另一种思路是走一条更可控、更彻底的路径,即实现可证明安全的 AGI。具体来看,即在设计系统时,必须一开始明确AI的行为边界,就像传统算法,先进行严格的数学分析,确保其在理论上不会出问题。

“这一思路令人期待。”姚期智指出,近年来,自动定理证明系统(Automated Theorem Prover)取得了重大技术进展,甚至已经开始采用 Transformer 架构来辅助或主导定理证明过程。这样人类只和可被证明安全的白盒子交流,从而实现更高的安全保障。

不过,姚期智认为,AI安全治理的一些当务之急是要发展AI对齐,以及建立相应的评估方法。“(我们)急需建立如何评估大模型系统,比如到怎样的程度,就能感觉Ta具有危险性等这类评估。”姚期智说。

    责任编辑:宦艳红
    图片编辑:施佳慧
    校对:施鋆

    http://news.xdnf.cn/ZSSLpKJsUe

    相关文章

    AI如何帮助妇产科患者?专家:预测疾病风险、成为问诊咨询助手

    高龄产妇增多,AI如何助力精准诊疗?又如何帮临床医生更好地服务患者?2025年6月21日-22日,上海,第八届红房子论坛暨第六届上海公立医院高质量发展论坛召开。 主办方 供图6月21日-22日,由复旦大学附属妇产科医院(又名:上海红房子医院)主办的第八届红房子论坛暨第六届上海…

    我的高考|为法学梦放弃保送或出国,“高三真正的考验在于心理调适”

    【编者按】6月23日,2025年上海秋季高考成绩揭晓。2014年,上海在全国率先启动高考综合改革试点。2025年,上海更是见证了首批完整经历新课标、新教材、新评价体系的高中学子,交出新的答卷。这群生于数字浪潮、长于变革时代的考生,在人工智能深度赋能教育、拔尖创新人才培养体…

    中国影视工业迈入超高清时代:书写民族精神、打造历史剧标杆

    6月23日,第30届上海电视节开幕首日,备受瞩目的“超高清创制片单”正式发布,标志着中国超高清视频产业迈入内容创新与技术融合的新阶段。此次片单包含6部超高清精品剧集——《我们的河山》《曙光》《大生意人》《张謇》《樱桃琥珀》《太平年》。活动现场,制片人、导演、编剧…

    专访|奥赛博物馆主席阿米克:来博物馆感受平等,感受法国

    地处黄浦江畔的上海浦东美术馆“缔造现代:来自巴黎奥赛博物馆的艺术瑰宝”自开幕以来,迅速成为城中热事,排队观展几成常态——这是奥赛博物馆馆藏第三次赴上海展出,三次均掀起观展热潮。在“缔造现代”于浦东展出之际,奥赛博物馆主席西尔万阿米克(Sylvain Amic)接受了《…

    《孩子剧团》:热血少年,抗战奇花

    作家徐鲁历时4年创作的长篇儿童小说《孩子剧团》由少年儿童出版社出版,该书是纪念中国人民抗日战争暨世界反法西斯战争胜利80周年的献礼之作,并入选2024年度上海文化发展基金会资助项目。近日,“热血少年,抗战奇花”——徐鲁长篇小说《孩子剧团》作品研讨会在北京召开。研讨…

    专访白玉兰奖纪录片评委曾海若:创作如修行,从了解自己开始

    “好的纪录片,需要真实、真相、真诚的叠加。如果只是真诚,但表现很浅,意义不大。如果非常真诚地讲一件虚假的事,那就更麻烦了。”6月23日下午,本届上海电视节纪录片单元评委曾海若在接受澎湃新闻记者专访时,他首先表达了心中好纪录片的标准。本届上海电视节纪录片单元评委…

    “一天8杯水”,变成百亿大生意

    ​不爱喝水的年轻人,交上了新朋友作者 | 黎晓6月中旬的北京,最高温已经冲到了30度,在盒马线下店的瓶装水货架前,一位30岁左右的男士拿起一瓶暑清元气水,翻转瓶身看了看配料表,随即放进了购物篮。这瓶配料表里包含了西洋参、淡竹叶、麦冬、铁皮石斛等七味原料的中式养生水…

    白玉兰奖入围纪录片|大千世界,美和力量

    大千世界,因纷繁复杂而美。爱尔兰大西洋群岛边的海洋生物,美洲大陆广袤陆地上的生命网络,宏观世界的自然奇观让我们啧啧称奇;兽脚类恐龙如何演变为飞鸟,艺术家毕加索有怎样的矛盾性格,社科人文的知识信息让我们受益匪浅;现代高压力生活下的情绪如何应对,旧有文化传统下…

    以媒:以色列告知伊朗以方寻求“几天内”结束冲突

    新华社耶路撒冷6月23日消息,以色列第12频道电视台23日晚间报道说,以色列已向伊朗发出信息,称以方目标是“几天内”结束双方之间的军事冲突。报道援引以色列高级官员的话说,以色列“已接近实现作战目标”,但以色列仍可以选择升级战事,包括袭击伊朗数千个目标,以削弱伊朗政…

    伊朗议会国家安全委员会通过暂停与国际原子能机构合作提案大纲

    伊朗议会大厦(资料图)当地时间6月23日晚间,伊朗议会国家安全委员会发言人表示,在当天举行的会议上,该委员会成员投票通过了要求伊朗政府暂停与国际原子能机构合作的提案大纲。责任编辑:王晓峰澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    甘肃靖远山洪灾害失联人数增至5人

    记者从甘肃省白银市靖远县应急管理局了解到,受强降雨影响,6月23日下午6时许,靖远县永新乡新泉村新泉沟发生山洪灾害,经过进一步核实,截至24日凌晨2时,失联人数增加至5人。目前,甘肃省、白银市已调集应急、消防、公安和当地乡镇干部近400人,分组展开搜救工作。总台记者从…

    中方代表:美对伊朗核设施进行军事打击性质恶劣、史无前例

    中国常驻国际原子能机构代表李松大使6月23日,国际原子能机构就伊朗局势举行紧急会议,讨论美国打击伊朗核设施相关问题。中国常驻国际原子能机构代表李松大使发言阐述中方立场。李松指出,历史会记住6月21日这一天。美国作为联合国安理会常任理事国、《不扩散核武器条约》存约…

    卡塔尔宣布暂时关闭领空

    当地时间6月23日,卡塔尔外交部发表声明称,卡方相关部门宣布暂停该国领空的所有空中交通。声明表示,卡塔尔致力于保护所有卡塔尔公民以及在卡居民和游客的安全,暂停所有空中交通的决定是基于当前地区局势所采取的一系列预防措施的一部分。声明还表示,卡方相关部门正在密切监…

    俄侦委会:音乐厅恐袭事件调查结束,袭击出于政治目的

    当地时间6月23日,俄罗斯联邦侦查委员会通报称,对发生在莫斯科近郊“克罗库斯城”音乐厅恐袭事件的调查已经结束。据统计,袭击造成149人死亡、609人受伤,另有1人失踪。俄罗斯联邦侦查委员会称,该恐怖袭击的策划时间长达数月。袭击是出于对乌克兰领导层利益的考虑而策划的,…

    卡塔尔宣布暂停境内所有空中交通

    当地时间6月23日,卡塔尔外交部发表声明称,卡方相关部门宣布暂停该国领空的所有空中交通。声明表示,卡塔尔致力于保护所有卡塔尔公民以及在卡居民和游客的安全,暂停所有空中交通的决定是基于当前地区局势所采取的一系列预防措施的一部分。声明还表示,卡方相关部门正在密切监…

    受地震影响广州花都一居民楼倾斜?官方通报:无发现异常

    广州市花都区发布情况说明,6月23日18时48分,清远市清城区发生4.3级地震,花都有震感。网传花都区叶榕街5号广州融创雪域澜庭一居民楼受地震影响、楼体倾斜。接报后,区政府迅速组织部门、专家赴现场核查,经专家现场观察,楼体地库、塔楼、楼顶均未发现形变,无发现异常。目前…

    地震导致居民楼楼体倾斜?广州花都区辟谣

    广州市花都区发布情况说明,6月23日18时48分,清远市清城区发生4.3级地震,花都有震感。网传花都区叶榕街5号广州融创雪域澜庭一居民楼受地震影响、楼体倾斜。接报后,区政府迅速组织部门、专家赴现场核查,经专家现场观察,楼体地库、塔楼、楼顶均未发现形变,无发现异常。目前…

    高端酱香老酒竟是酒精勾兑?贵州仁怀通报

    贵州仁怀市市场监督管理局6月23日通报,6月22日晚,央视财经频道《财经调查》栏目播出《“年份酒”岂能凭空造》,反映仁怀市个别商家涉嫌存在酱香型白酒生产中添加食用酒精、以假充真、虚假标注生产日期等问题。报道播出后,贵州省、遵义市及仁怀市党委政府高度重视,第一时间…

    钱军:复旦国金“破浪”八年,在不确定性中锚定未来

    6月23日,复旦大学国际金融学院迎来了它的八周岁生日。八年,对于一所志在打造世界一流金融学院的机构而言,既是初露锋芒的里程碑,也是面向未来的新起点。在这个节点上,我们与复旦大学国际金融学院执行院长钱军进行了一场对话。对话地点是学院刚刚启用的新教学楼内,现代化的…

    外交部部长助理刘彬会见伊朗新任驻华大使法兹里

    2025年6月23日,外交部部长助理刘彬会见伊朗新任驻华大使法兹里。刘彬欢迎法兹里来华履新,表示中伊传统友好,发展中伊关系符合两国人民共同利益。中方高度关注地区局势发展,反对侵犯伊朗主权、安全和领土完整,反对激化矛盾、扩大冲突,愿同伊方保持沟通,为恢复中东地区和平…