全球首个AI价值观数据集出炉

article/2025/11/2 11:31:20

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。

引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。

但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将成为新的AI竞争赛道。

    图片编辑:蒋立冬
    校对:刘威

    http://news.xdnf.cn/lHfanSqgKh

    相关文章

    艺术家会怎么造机器人?

    在当下,艺术家如何看待人工智能,又如何利用人工智能进行创作?4月21日,上海昊美术馆推出了“混合智能艺术季”,以“后窗寓言”与“穿越本体——机器人艺术中国”两个特展,展现艺术家对于人工智能与数字艺术的思考,以及以人形机器人艺术为研究方向的创作。 视频:昊美术馆…

    资深翻译家、斯诺研究专家安危逝世,曾为多位外国元首做口译

    据陕西省翻译协会发布的讣告,资深翻译家、斯诺研究专家、陕西省斯诺研究中心创始人安危先生于2025年4月22日凌晨在陕西西安逝世,享年83岁。安危公开资料显示,安危曾任中国翻译协会副会长、陕西省斯诺研究中心主任。长期从事英语口译、笔译及业务审稿工作,曾为来访的美国前总…

    什么是中国好手艺?材美、工巧、器韵、时宜

    由中国艺术研究院主办、 中国艺术研究院工艺美术研究所承办的“第四届中国好手艺展”近日在北京工艺美术博物馆举办。展览中展陈的110件(套)作品涵盖琢玉、雕镌、金工、髹饰、陶埏、织绣、编结、画绘等工艺美术门类,据悉,本届中国好手艺展秉持的“材美、工巧、器韵、时宜”…

    智飞生物一季度营收下滑79%,连续三个季度亏损,称业绩波动与行业整体趋势一致

    2024年营收净利双降,2025年第一季度净利润同比转亏,国内民营疫苗龙头企业业绩持续承压。4月21日晚间,重庆智飞生物制品股份有限公司(智飞生物,300122)公布2024年财报,全年实现营业收入260.7亿元,同比下降50.74%;归母净利润20.18亿元,同比下降74.99%;归母扣非净利润1…

    两代“楚王”世纪同框,楚王熊悍鼎将回安徽展出

    作为安徽博物院的常设展——“安徽文明史陈列”是一部安徽地域文明的发展史,澎湃新闻获悉,该常设展的夏商周时期展厅经过近半年闭馆提升改造,将于近期以全新面貌与公众见面。开展首展上,该馆馆方借展了出土于安徽,现收藏于天津博物馆的镇馆之宝——楚王熊悍鼎,并将与该院…

    乍嘉苏改扩建项目迎来新进展!预应力管桩首件施工顺利完成

    日前,浙江交通集团乍嘉苏改扩建项目施工现场井然有序,呈现出一派繁忙的场景。随着首根预应力管桩精准沉入预定位置,乍嘉苏改扩建项目再获突破性进展,标志着项目软基处理施工迈出关键一步,为后续大规模管桩施工奠定坚实基础。据悉,乍嘉苏改扩建项目地处杭嘉湖冲积平原,地…

    大连万达商业管理集团提前兑付“22大连万达MTN001” ,本息2.64亿元

    大连万达商业管理 视觉中国 资料图4月22日,大连万达商业管理集团股份有限公司发布公告,宣布2022年度第一期中期票据将提前兑付。债券简称为“22大连万达MTN001”,债券代码102281476,发行总额人民币10亿元,目前债项余额为人民币2.5亿元。该债券起息日为2022年7月7日,发行…

    国际金价冲上3500美元,本月已涨超12%!分析人士提醒:警惕短期多头获利了结

    4月22日,COMEX黄金期货、伦敦现货黄金站上3500美元/盎司,双双再创历史新高。对于黄金接下来的走势,市场观点认为仍有持续性。美银调查显示,高达82%受访基金经理预计全球经济将走弱,创下30年来的历史新高,全球股票配置降至2023年7月以来的最低点,“做多黄金”取代了持续2…

    诸葛燕喃出任中央文化和旅游管理干部学院党委书记

    澎湃新闻获悉,此前担任中国歌剧舞剧院党委书记的诸葛燕喃,已任中央文化和旅游管理干部学院党委书记。诸葛燕喃诸葛燕喃,女,汉族,大学学历,工学学士学位,中共党员,她早前还曾任中央文化管理干部学院党委副书记、纪委书记,中国国家话剧院党委书记等职。公开资料显示,中…

    中国墨西哥商会副执行主席:深耕中国市场18年,对未来充满信心

    4月21日,“中国共产党的故事——习近平新时代中国特色社会主义思想在重庆的实践”重庆经贸推介会在重庆市举行。作为“中国共产党的故事——习近平新时代中国特色社会主义思想在重庆的实践”专题宣介会的配套活动,此次活动共吸引来自柬埔寨、新加坡、津巴布韦、意大利、西班牙…

    广电总局加快布局超高清视听产业链,多项成果亮相

    4月22日,第三十一届中国国际广播电视信息网络展览会(CCBN2025)开幕。本届展会以“广电视听更美好——科技创新引领高质量发展”为主题,全面展现广电视听行业的新技术、新产品、新应用,全面展示科技赋能广电高质量发展的最新成果:北京卫视4K超高清频道开播、超高清插入式微…

    聚焦客户真实需求,平安人寿重磅推出“添平安”保险+服务解决方案

    4月21日,中国平安旗下平安人寿在深圳国际会展中心举办"好保险 添平安"发布会,重磅发布"添平安"保险+服务解决方案(以下简称"添平安")。作为中国平安"三省工程"的一大创新实践,"添平安"立足客户需求,升级"保险+服…

    吉祥航空去年净利增超17%,海航实控人方威退出前十大股东

    吉祥航空继续保持盈利,加速恢复国际航线。4月21日晚间,上海吉祥航空股份有限公司(吉祥航空,603885.SH)发布2024年财报。去年吉祥航空实现营收220.95亿元,同比增长9.95%;归母净利润为9.14亿元,同比增长17.52%。主营业务毛利率达到13.51%,同比减少0.39个百分点。其中,全…

    洛阳白马寺存争议的狄仁杰墓挂牌,当地文物部门:已确认

    日前,有网民发帖称,位于河南洛阳白马寺景区内的狄仁杰墓最近挂上了公示牌。此前,该墓主人到底是狄仁杰还是武则天男宠薛怀义一直有争议,如今挂牌是否意味着尘埃落定,有了确定结果?此事引人关注。对此,4月22日,当地相关部门回应称,已确认就是狄仁杰墓。网民发帖称,白马…

    图忆|温州旅沪先贤的家国情怀

    近日,由温州市政府驻上海联络处与温州大学上海校友会主办、凰丽时尚集团与锦时会客厅协办的“瓯潮澎湃上海滩——漫谈温州旅沪前辈的家国情怀”主题讲座在上海凰丽时尚集团举行,来自上海各界的温沪两地共一百余人参加了活动。本次讲座特邀华东师范大学美术学院书法系主任、上…

    00后为购演唱会门票转账近16万元“解封”银行卡,民警及时追回

    00后女子为购买500元演唱会门票,转账近16万元“解封”银行卡?周小姐支付500元用于购演唱会门票 本文图片均为上海浦东警方提供4月12日傍晚,上海市公安局浦东分局唐镇派出所接到25岁的周小姐报警,称疑似遭遇诈骗。周小姐在二手交易平台上浏览时,看到有人正在转让出售自己想…

    科普书单·新书|鸟界戏精观察报告

    《证明的故事:从勾股定理到现代数学》[澳]约翰史迪威 著,程晓亮 张浩 译,人民邮电出版社 | 图灵新知,2025年2月版本书从古希腊几何学时代讲起,涵盖代数、微积分、集合、数论、拓扑、逻辑等几乎全部数学分支中的证明故事,讲述了证明的演变及其在数学中的重要作用和启发意义…

    瑞穗银行(中国)有限公司行长:重庆赛力斯超级工厂的智能化程度令人震惊

    4月21日,“中国共产党的故事——习近平新时代中国特色社会主义思想在重庆的实践”重庆经贸推介会在重庆市举行。作为“中国共产党的故事——习近平新时代中国特色社会主义思想在重庆的实践”专题宣介会的配套活动,此次活动共吸引来自柬埔寨、新加坡、津巴布韦、意大利、西班牙…

    去年净流入人口达45万,居各省份第一:浙江带来哪些启示?

    广东去年常住人口增加74万人,同期浙江省外人口净流入达到45.4万人——尽管尚有个别省份未披露2024年度人口数据,但考虑到基数、经济社会发展水平等,粤、浙两省的“人口增量第一”“省外净流入人口第一”已不可动摇。 常住人口增量是人口自然增长(出生人口减去死亡人口)、…

    助力中国足球未来,香港赛马会鼎力支持U15国少选拔队赴英训练

    为响应国家体育强国战略,助力中国足球事业持续发展,培养新一代足球人才,香港赛马会(以下简称“马会”)支持中国U-15国家男子足球选拔队(以下简称“U15国少选拔队”)于2025年3月19日至4月10日赴英国开展为期三周的足球训练营活动。“U15国少选拔队”参观曼联主场老特拉福…