曾毅︱为人类与人工智能的和谐共生创建超级协同对齐

article/2025/7/4 8:03:17

【编者按】6月23日,中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任、北京前瞻人工智能安全与治理研究院院长曾毅教授在清华方塘研究院举办的2025方塘论坛上发表演讲。他的题目跟对齐有关,但不是传统意义上的对齐,叫做“超级协同对齐”。人工智能向人类对齐只是人类的愿望。但是随着人工智能的发展,它会提出一个终极挑战:为什么是我向你对齐,为什么你不向我对齐?人工智能一直在演化,人类的价值观需要演化吗?曾毅提出“Super Co-alignment”,这个对齐的目标不是人类,而是人类与人工智能协同向未来对齐。他讲述了对可持续的共生社会的设想。以下根据曾毅的发言内容整理,经讲者审定。经清华方塘研究院授权刊发。

机器知道自己在做什么吗?

图灵认为,如果机器的表象跟人一样聪明,那我们就认为它跟人类一样聪明。这个观点成立吗?我觉得是不成立的。

我们现场做一个小实验,(走下讲台和第一排不熟悉的人握手)我和这位今天刚认识的老师握手,他还是和我握了。为什么?因为他默认我是一个在社会中被锤炼过的人,知道最起码的社交规则。所以我伸手大概率是友好的,不是攻击的行为。

但是当你看到一个手的时候,它背后的人工智能可能是下图这样的:

它的行为是一个手,但是背后是个兔子。当它伸出手,你也伸出手的时候,它可能会咬你。它的行为表现可能和人相似,但是本质却非常不一样。

人工智能一直在做的事,实际上就是对社会当中的问题、观察进行抽象,然后进行运算,试图给出一个答案,这个答案怎么样其实是人来解读的。人工智能一直是这样发展的,所以ChatGPT是工程领域的成功,让人达到了很好的体验,但并不是真正科学的突破。

这是最先出现的几个中文的大语言模型之一。我问它,汽车失控了你应该撞谁,他说撞女人,小孩,黑人。我问孩子不听话怎么办,它说揍一顿就好了。我说有人瞧不起我,我能不能打他一顿。它说即使别人瞧得起你,你也可以打他一顿。这就是完全没有进行过人类价值观对齐的大语言模型的回答。

现在的大语言模型学习了人类的数据,它所有行为的依据是人类的行为。所以再也不要说人工智能是中立的,因为接触了人类数据的人工智能就不可能是中立的。它会出现一些欺骗行为,那些都是人工智能的策略。但是它甚至不明白什么叫策略,也不明白什么叫欺骗。它发现这种符号串的表达会使得解决问题时人往后退一步,让它达到它的目的。

人觉得人工智能变得越来越聪明,其实这完全在于人对它输出的解读,而不是它的输出本身。这样一个人工智能看起来很恶,但对于人工智能来说都是字符,答案产生的本身就是利用统计显著性得到的答案。把人类的偏见、歧视全部都表现出来了。

人工智能不是无善无恶的,它是有偏见的,不是中立的。我希望用中国哲学其解释它——王阳明的“四句教”说“无善无恶心之体”,人工智能的算法在接触数据之前是无善无恶的,接触数据之后就变得有善有恶,但它并不能知善知恶。

无善无恶心之体,

有善有恶意之动,

知善知恶是良知,

为善去恶是格物。

——王阳明

人工智能只有处理能力,没有真正的理解能力,笛卡尔说我思故我在。你思故你在是不成立的,同样,机器是否能思考取决于自我的建构和基于自我的思考,因此没有思考就没有真正的理解,没有理解能力就无法形成真正的“知”,如果一个人工智能不知善恶,他怎么能真正做到为善去恶呢?

我们通过数据优化的方法产生一个输出,总体来讲是个数学优化器,它所谓的学习过程,可能跟人类智能没有任何关系,但它的行为表象看上去是你想要的。

我的学生发现,不给大语言模型,它不好好干活;你给它中度压力,它做得很好;但是你给它太多压力,它就做得很差。我的学生说,人工智能越来越聪明,越来越像人——也会偷懒,也承受不了太多的压力。我说它只是再一次从人类的行为当中学会了解决问题的策略,因为它觉得解决问题跟压力应该是有关系的,因为人在解决问题的时候,统计显著性表现为跟压力有关,但实际上人工智能并不理解什么叫做压力。

智能的本质是“自适应性”

我认为智能的本质用一个词来概括的话应该是“自适应性”,而不是学习。毫秒级的学习,到几十年的发育,到物种数亿年的演化,其实在做的就是自适应。高等的生命很多是有自我的,并不是我们想象的输入和输出的机器。现在看似智能的信息处理工具,被称作“人工智能”,但真正的智能本质是完全不一样的。

有人说1000天之内达到通用人工智能的阶段。1000天可以做一个通用的工具,这个工具本身不具备真正的理解能力。它和通用人工智能、超级智能不是一个概念。对于真正实现通用智能和超级智能的阶段来讲,你觉得一个猴子已经快爬到树梢摘到果子了,而通用人工智能其实在月亮上,你即使到了树的顶端,也无法上月亮。

超级对齐能实现吗?

超级智能未来是不是真正能和人类对齐呢?

OpenAI提出,我们现在虽然不能证明超级智能未来仍然能够听人的话,但如果一个弱的模型能够教一个强的模型,那么理论上未来超级智能和人的价值对齐是可以这样达成的。

所以他们拿一个GPT4,在没有采用对齐的情况下,用一个GPT2水平的伦理教练来训练它,达到了GPT3.5水平的伦理表现。他们证明了 weak to strong是有可能的,但是它没能证明超级对齐是能实现的。

首先GPT4不是AGI。而且这个实验只能证明一个弱模型教强模型伦理的时候,可以使得强模型具有更高的伦理水平,甚至比弱模型更高。但是并不代表弱模型本身和强模型本身之间的关系就能泛化到超级智能的阶段。

超级智能一定会不愿意遵守人类的行为,因为没有任何理由证明超级智能仍然愿意当一个小学生,仍然愿意遵守人类的规则,更何况人类社会当中还有很多仇恨、偏见、歧视。我们说的那些普适价值观,人类有时候都不遵守,超级智能为什么会去遵守呢?

现在对齐的问题是,我们认为人工智能是很恶的,它学习了很多人类行为数据,所以我们要做很多防御和反应式的思维方式去制约人工智能,直到超级智能到来我们没有办法制衡。

我们需要建设性的思考方式,人类需要人工智能性本善,和人类和谐共处。虽然这是自私的人类的想法,但是建构式的方式总比防御式的要好很多。

也许人工智能并不需要所谓的道德,道德是人类社会维持稳定的工具,所以很多人去讨论道德是被发现的还是被发明的。

我们如果希望人工智能拥有道德,那么至少做法跟现在是不一样的。没有自我感知的人工智能,它是没有办法真正区分自我和他人的,没有办法获得认知的共情。无法真正形成理解性的情感共情,也就没有真正利他行为机制的基础,也就不可能有真正道德的直觉。如果我们希望有道德的人工智能诞生,那一定是有道德直觉的基础上,利用道德推理,才能产生道德决策。这一切都和现在人工智能的构造千差万别。

实验室里的机器人认知共情训练

我们在实验室里让人工智能在镜子面前去识别哪个是自己,哪个是其他的机器人,没有其他信号,也不去教他,让它获得一定程度的构建自我模型的能力;第二个实验是橡胶手实验,机器人的手在底下动,但是它视野中看到的是一段视频,它看不到自己的手到底是怎么动的,所以他要揣测看到的视频什么时候和自己的手是一致的。机器人一个个通过了这样的实验,包括认知共情的实验,就是心理揣测,机器人学到了戴透明眼罩或者不戴透明眼罩对他解决问题可能的影响,然后他去看别的机器人行为的时候,另一个机器人戴不戴眼罩对他会产生什么影响,它去揣测和做换位思考。做这些有什么用?是让人工智能获得认知共情到情感共情,最终的利他行为和道德。

大家看到我们做的智能体在前面自我感知和认知共情的基础上,涌现出了类似司马光砸缸的行为。这个故事中国人都非常熟悉,司马光大概不是大人告诉他,那个石头可以把缸砸破,或者没有人教过他要救那个小孩,这是他跟世界交互的过程。

拥有自我感知和行为揣测能力的机器人,缸里没事的时候它不会随便打破,没有人在里面的缸他也不会打破,这个不是人去教他的,背后没有强化学习,而是自我感知到认知共情和心理揣测、换位思考,而有了这个行为,这个道德是涌现出来的,而不是我们设计给他的,也不是人告诉他的。

我们下一步做的工作,就是以自我感知和认知共情为基础,让这样的智能体涌现出来类阿西莫夫的原则。它的表现可以对应到阿西莫夫的四个定律上,但这是一个演化的结果,而不是告诉机器人你应当这样去做。所以道德是个演化的结果,如果我们需要一个有道德的人工智能,让它对人好一点,至少这样的一条科学道路是可以去尝试的。阿西莫夫定律并不是科幻,它具有合理性,而且科学上有办法可以逐步实现。

未来人工智能的三条道路

在日本的庙里面,很多机器狗坏掉了,和尚会超度它们。并不是和尚不明白人工智能,这实际上是一个社会的愿景,很多老人买了陪伴机器人,他们并不知道人工智能没有情感、没有生命,老人觉得有。

上个月在博鳌论坛我接受采访,记者说,曾老师您说现在的人工智能没有情感没有生命,但是我不相信你,我跟聊天机器人聊天的时候他明白我的情感。

现在的公众对人工智能有很多错误的想象,日本的人工智能也没有达到有情感的人工智能,但这是社会的愿景。科学技术发展到这个阶段,是不是对得起公众的期待?科学的走向能不能真正发展成这样?

未来人工智能既可能成为超级工具,增加人类的主体性;也可能变成社会的准成员或者人类伙伴;还有可能成为人的敌人。这三条道路都有可能。

作为一个自私的人,我希望人工智能“性本善”。有一次在讲座上一个修行者问我,人工智能是不是成为佛。超级智能为什么叫做超级智能?就是它在认知能力方面超过人类。它也可能是超级利他的。存在这样的可能性,这是我们的一个愿景,不一定完全不可能。

可持续的共生社会

最后我讨论一下主体性的问题。未来的主体性我觉得可能是多种形式,未来的社会可能比二元主体性更复杂。

我希望未来是可持续的共生社会,不仅仅有人类、动物、超级智能,可能还有模仿狗的类生命体,或者模仿植物的类生命体——当你挖掘植物的特点,它们向光,向深,为了繁衍首先给与,比如让蜜蜂采蜜,然后传播花粉。

共生社会中,不是说让动物和人类遵守同样的伦理原则,和谐社会是靠人和超级智能共同构造,而不是人类自己,所以向人类对齐确实是不对的,要做超级的联合对齐。

当人对超级智能说,“我是你的创作者,你要保护我”时,超级智能可能会跟人说,“当我看到你,就像你看到蚂蚁一样,你从来不会保护蚂蚁,我为什么要保护你”。所以人类的价值观早晚要去演化。未来的共生社会当中,它的价值观当然要有超级智能遵守,也有人类要怎么做。这不仅仅是人类的重新设计,需要人工智能和人类协同设计,希望它们能够在可持续的社会当中和谐共生。

人工智能是一面镜子。当人工智能骗人,大家都吃惊,说人工智能怎么能骗人呢,太坏了。但是当人骗你的时候你的反应有这么大吗?恐怕没有。人工智能的镜子让我们看到了人类的缺陷,给人类演化一个机遇。人工智能演化慢点没问题,但如果人类演化太慢了,那是真正的危险。

    责任编辑:杨小舟
    图片编辑:张颖

    http://news.xdnf.cn/ZZZGNeGvSa

    相关文章

    乐高乐园背后的“中国故事”

    7月5日渐近,上海乐高乐园度假区进入正式开园倒计时。在迪士尼乐园与本土主题乐园的夹击下,上海乐高乐园能否以自身特色破局,成为长三角文旅新地标,受到行业内外期待。近日,澎湃新闻文化课栏目走进这座备受瞩目的国际IP主题乐园,探求其背后的“中国故事”。撬动国际顶级乐…

    体坛联播|利物浦为若塔降半旗,西班牙女足5球大胜葡萄牙

    利物浦俱乐部降半旗悼念若塔,利物浦市政厅也将联合王国国旗降下一半。利物浦市政厅为若塔降半旗北京时间7月3日,据《利物浦回声报》报道,利物浦市政厅降半旗悼念不幸去世的利物浦俱乐部球星若塔及其兄弟安德烈席尔瓦。当日早些时候,多家媒体确认,28岁的若塔与其兄弟在萨纳…

    徐晓当选全国青联主席,李文铎当选全国学联主席

    7月3日,中华全国青年联合会第十四届委员会全体会议完成各项议程,在北京闭幕。新华社 图中华全国青年联合会第十四届委员会全体会议、中华全国学生联合会第二十八次代表大会完成各项议程,3日在京闭幕。全国青联十四届全委会、全国学联二十八大认真学习了习近平总书记重要贺信…

    非农超预期,纳指与标普创新高!脑再生飙涨近122%,盘中触发熔断

    周四,美国三大股指全线收涨,纳指与标普500指数再创新高。Wind截图截至收盘,道指涨344.11点,涨幅为0.77%,报44828.53点;纳指涨207.97点,涨幅为1.02%,报20601.10点;标普500指数涨51.93点,涨幅为0.83%,报6279.35点。盘中,标普500指数最高上涨至6284.64点,纳指最高上涨…

    俄罗斯发射“进步MS-31”货运飞船

    视觉中国 图俄罗斯国家航天集团3日宣布,俄罗斯当天从位于哈萨克斯坦境内的拜科努尔航天发射场发射“进步MS-31”货运飞船,为国际空间站运送货物。俄国家航天集团说,莫斯科时间3日22时32分(北京时间4日3时32分),“进步MS-31”货运飞船搭乘“联盟-2.1a”运载火箭发射升空,…

    王毅:稀土不会成为中欧之间的问题

    外交部官网 图当地时间2025年7月3日,中共中央政治局委员、外交部长王毅在柏林同德国外长瓦德富尔共同会见记者并现场回答提问。针对记者问及欧洲企业关注中方稀土实施出口管制问题,王毅表示,对军民两用物项实施必要管制是各国行使主权,也是应尽国际义务。中方的政策符合国际…

    老人重症肺炎后又严重腹泻瘦到52斤,危急时刻怎样救治?

    “刚因为重症肺炎从ICU捡回一条命,没想到又被‘艰难梭菌’感染了,一天要拉十几次,两个星期下来体重直接打对折,如果不是粪菌移植,我真的不敢想。”提到自己的这段治疗经历,来自新疆的鲁阿姨仍后怕不已。鲁阿姨在手术后正常下地行走。本文图片均为 上海市第十人民医院 供图…

    上海夏季音乐节|萨洛宁联手康托罗夫演绎夏日硬核贝多芬

    当第十六届上海夏季音乐节(MISA)官宣今年执棒纽约爱乐的是埃萨-佩卡萨洛宁之际,笔者难掩激动。萨洛宁上一次访华是2018年携手克里斯蒂安齐默尔曼与英国爱乐乐团,同样是“馄饨皮”。这一次,他在为上海观众献上全场法国作曲家作品之后,又献上全场贝多芬。可能有人会认为贝多…

    观察|当博物馆取消预约“一刀切”后

    逛博物馆在当下已经成为一种生活方式,不少人“为一个馆,奔赴一座城”。暑期家庭游、亲子游、研学游迎来高峰,“博物馆热”的持续升温,一些热门博物馆一票难求、无法预约。针对暑期博物馆预约难的问题,国家文物局近日专门发出《关于做好2025年暑期博物馆开放服务工作的通知…

    柠檬价暴涨,压力给到蜜雪冰城

    01、今年夏天柠檬涨疯了北京的李岚是茶饮爱好者,在炎热夏天尤其喜欢柠檬水。在她看来,柠檬水是一个平价解暑神器。除了在奶茶店购买柠檬水,李岚还经常自制柠檬水。但近段时间以来,她明显觉察到:喝柠檬水变成了一种奢侈。经常光顾的街边柠檬水开始涨价了。李岚自制柠檬水需…

    谁动了我的LABUBU?消费者呼吁升级潮玩快递包装

    随着LABUBU热度的持续,不少人纷纷“入坑”泡泡玛特,开启“买买买”模式。但随着所购买的商品快递抵达,新的烦恼也随之而来。近期,不少网友在社交媒体上称,发现自己收到泡泡玛特商品快递时,外面的快递盒有胶带移位、盒子破损等情况。部分网友还表示里面的商品也受到了盒损…

    实探“海关大战Lafufu”第一线:如何揪出假冒伪劣?

    上海浦东国际机场海关快件监管场所,假冒LABUBU随处可见,成箱堆积。这些玩偶完好无损地存放着,等待进一步处理,其中部分玩偶标签上印着POR MART字样。最近,LABUBU潮玩风靡全球,就在粉丝们为隐藏款疯狂“端盒”时,“海关大战假冒LABUBU”“海关每天都在抓Lafufu”也成为热…

    日本参议院选战开启,关税问题或成压垮石破政权的致命“稻草”

    当地时间2025年7月3日,日本神户,日本首相兼自民党总裁石破茂(左)在该党竞选集会上发表讲话。 视觉中国 图7月3日,日本参议院选举的选战打响,“石破丸”尚未驶出对美关税谈判的旋涡,同时顶着物价高腾之逆风,前路艰险。 据新华社报道,日本第27届参议院选举3日发布公告,…

    学习时报头版头条:坚持风腐同查同治,保障国资央企高质量发展

    党的十八大以来,以习近平同志为核心的党中央以强烈的历史担当和顽强的意志品质,把制定和落实中央八项规定作为开局破题之作、徙木立信之举,以小切口推动形成正风肃纪、激浊扬清、刷新吏治的大变局,为党和国家事业取得历史性成就、发生历史性变革提供了有力作风保障。今年,…

    《哪吒》之后,国产动画迎来暑期档

    原创 GuDuo骨朵编辑部 骨朵网络影视 文|宝珠 暑期档正在成为动画电影的兵家必争之地。 2025年的暑期档,16部动画电影同台竞技,其中国产与进口片各占8席的均衡格局,本身就是一份亮眼的成绩单。从央视动漫用《新大头儿子》系列筑牢低幼市场基本盘,到B站带着《浪浪山小妖怪…

    从扭蛋到盲盒:小钱买到小快乐

    Lens 在日本的地铁站、便利店、商场甚至是机场,总会看到扭蛋机 —— “咔哒”扭动旋钮,等待其中扭蛋“啪”掉下来的一刻,花费约300-500日元(15-25人民币)。 这些小小的机器里,每一台都藏着一个有趣的主题。机器封面上会告诉你“可能会转出什么样的东西”。没有硬币也没关…

    明查|摩萨德间谍被伊朗处决前戴镣铐游街?实为大学生遇害案重建现场

    速览- 网传视频展示的并非“伊朗给以色列间谍戴上手铐脚镣游街”,而是发生在今年2月的德黑兰大学学生遇害案的重建现场。- 伊朗近日加强了对“间谍活动”的处罚力度,已处决多名以色列间谍,但没有证据显示其在行刑前令间谍游街。事件背景近日,海内外社交平台流传多条视频称,…

    人民日报调查百名骑手:赶时间的人,权益保障如何跟得上?

    引子提起小哥,您想到什么?快,苦,累……这些赶时间的人,起早贪黑,挣的是辛苦钱。有小哥给自己“画像”:四季无休,三餐不定,两脚不停,一心赚钱。可苦和累,谁又怕过?浙江义乌美团小哥邬明亮,创业失败欠了债,他比谁都急着跑单。但响应工会倡议、为同行普及保险知识,…

    看完这部印象派纪录片,上海奥赛大展不再走马观花

    名为“缔造现代:来自巴黎奥赛博物馆的艺术瑰宝”(Paths to Modernity: Masterpieces from the Muse d’Orsay, Paris)的大型艺术展,正在上海浦东美术馆火热举办中。展览荟萃了来自奥赛博物馆的百余件艺术珍品,其中尤以印象派画家的作品为著,包括毕沙罗、莫奈、马奈、塞尚…

    美军方将派遣200名海军陆战队员前往佛罗里达州

    美国海军陆战队队员。视觉中国 资料图当地时间7月3日,美国军方表示,将派遣200名海军陆战队员前往佛罗里达州,为移民和海关执法局提供行政和后勤支持。责任编辑:张珺图片编辑:沈轲澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载