小红书开源首个 AI 文本大模型:11.2T 精炼语料吊打海量数据,证明“大模型≠大数据”

article/2025/6/14 2:06:42

大数据文摘出品

近日,在中文开源大模型愈发稀缺的背景下,小红书旗下 hi lab 公布了中等规模的 MoE 模型 dots.llm1,以 1420 亿总参数、每次仅激活 140 亿参数的设计,达成与 Qwen2.5-72B 相近的性能,吸引了社区的关注。

据悉,dots.llm1 是一个 Mixture of Experts(MoE)结构的语言模型。尽管总参数规模达 142B,但在每次推理中只激活 14B,有效控制了计算开销。这种“低激活、高表现”的设计理念,是对 MoE 架构效率潜力的一种验证。

它采用 6in128 的专家配置,并配有两个共享 Expert,在架构选择上参考了 DeepSeek 系列;训练策略上,则使用稳定的 WSD 学习率调度,先维持高学习率跑 10T token,再通过两轮退火调整,分别聚焦知识强化与数学代码领域。

在训练效率方面,hi lab 联合 NVIDIA 中国团队对 Megatron-LM 进行了底层优化:使用 Interleaved 1F1B + A2A overlap 的并行策略,让计算覆盖通信时间;同时,在 Grouped GEMM 的实现上做了调度层面改造,使 warpgroup 中专家的 token 分布更规整,最终实现前向阶段提速 14%、反向阶段提速近 7%。

这些看似技术细节的改动,其实是让 MoE 模型从“概念验证”迈向“工程可行”的关键步骤。

重点不在数据量,而在数据质量

相比动辄几十万亿 token 的训练数据,dots.llm1 用了 11.2T 的“高质量 token”达成对比模型效果,在数据选择上更倾向“精挑细选”而非“海量堆积”。

hi lab 的数据来源主要是 Common Crawl 和自主抓取的 Spider Web 数据,团队在清洗流程中融入了多层判别机制。例如,对网页正文提取使用 trafilatura 的改进版本,文档去重采用 minhash 结合行级分析,避免重复和冗余内容。对网页首尾常见的噪声句子,比如导航栏、版权信息等,还专门设计了“行级过滤”策略。

更进一步,hi lab 还通过语义质量分类器和 200 类别的数据平衡模型,对语料的类型结构做出筛选,提升知识类文本占比,降低虚构小说、电商数据等结构化内容的比例。在 PII 和内容安全方面,也引入模型辅助标注和人工审核,确保安全底线。

这些多层次的处理流程,是 dots.llm1 能以中等体量模型取得对标性能的重要原因之一。

一次尽量完整的开源尝试

与当前很多国产大模型“仅开放模型权重”不同,hi lab 尝试将 dots.llm1 开源做到相对完整。他们不仅放出了 final instruct 模型,还包含从预训练初期开始、每 1T token 存储的中间 checkpoint,覆盖多个 base 模型、退火阶段模型、超参数和 batch size 配置等。

此外,团队还开源了数学与代码领域微调中使用的规则与验证机制。这种全流程的开放做法,不仅便于其他开发者继续预训练或微调,也为研究人员观察模型学习路径、分析训练动态提供了更多可能。

开源的基础上,hi lab 明确表示欢迎社区在 dots.llm1 上进行二次开发或任务定制,如长文场景训练、指令微调或继续预训练,并希望此举能为中文大模型社区提供一种新范式。

最后,hi lab 是小红书内部较早布局 AI 的团队,强调“人文智能”愿景,关注 AI 与用户之间的交互关系。团队成员多来自技术背景较强的公司,在工程效率、数据安全和复现性方面有较明确倾向。

github:

https://github.com/rednote-hilab/dots.llm1

huggingface:

https://huggingface.co/collections/rednote-hilab/dotsllm1-68246aaaaba3363374a8aa7c

小红书:

https://www.xiaohongshu.com/user/profile/683ffe42000000001d021a4c

点「在看」的人都变好看了哦!

原标题:《小红书开源首个 AI 文本大模型:11.2T 精炼语料吊打海量数据,证明“大模型≠大数据”》

阅读原文

    本文为澎湃号作者或机构在上传并发布,仅代表该作者或机构观点,不代表的观点或立场,仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。


    http://news.xdnf.cn/dVEvIIPVJR

    相关文章

    从造梗到出圈,“苏超”给“十三太保”带来多少真金白银?

    原创 上观智库 上观智库 尽管因高考,江苏省城市足球联赛(以下简称“苏超”)轮空了一周,但热度不减。 截至6月9日下午,抖音平台的#苏超联赛#话题播放量达到19亿次,微博平台的#江苏省城市足球联赛#话题阅读量超5319万次,不关注足球的人也大约知道“比赛第一,友谊第十四…

    2025上海高价值专利运营大赛启动,三年促成技术交易额超11亿元

    以“高价值”为核心,以“转化”为目标,通过市场化机制和专业化服务,推动知识产权与产业、资本深度融合,为全国知识产权运营体系建设提供“上海方案”。6月11日,2025上海高价值专利运营大赛正式启动。大赛由上海市知识产权局、上海市科学技术委员会、上海市教育委员会联合指…

    互联网怎样架好全球跨文化交流之桥?这场论坛深入讨论

    6月11日,2025年中国网络文明大会网络文明国际交流互鉴论坛在合肥举行。本次论坛以“践行友好合作 推动文明互鉴”为主题,旨在打造网络文明国际交流互鉴平台,为携手构建网络空间命运共同体、促进人类文明进步贡献力量。中央网信办副主任、国家网信办副主任杨建文,安徽省政协…

    南京医科大学副校长冯锋履新泰州学院校长

    近日,泰州学院官网更新信息显示,此前担任南京医科大学党委常委、副校长的冯锋,现已履新泰州学院党委副书记、校长。稍早前,江苏省委组织部5月26日发布省管领导干部任职前公示,冯锋拟任本科院校正职。冯锋 南京医科大学 图公开资料显示,冯锋,男,汉族,1970年5月生,研究…

    浙江建设“高能级开放强省”再落一子:衢州综保区封关运作

    正在加速建设高能级开放强省的“外贸大省”浙江,再增一个国家级对外开放平台。6月11日,衢州综合保税区封关运作暨入区项目集中签约活动举行,标志着衢州综保区正式投入业务运行。该综合保税区填补了浙江综保区版图在浙西地区的空白,将成为浙江开放型经济发展的“新引擎”。图…

    江苏省委教育工委副书记、省教育厅党组成员潘漫履新

    近日,江苏省社会主义学院官网更新信息显示,潘漫已任江苏省委统战部副部长,省社会主义学院党组书记、副院长。此前,潘漫担任省委教育工委副书记、省教育厅党组成员,分管教育系统党的建设、高校宣传思想和意识形态、高校哲学社会科学研究、高校统战与群团、教师队伍建设、高…

    “随到、随检、随接种”,上海新版电子预防接种证扩大申领对象范围

    上海正在进一步扩大新版电子预防接种证申领对象范围,对2018年6月1日以后出生的本市儿童(即7岁以下儿童)提供电子预防接种证申领服务。电子预防接种证可用于“亮码”接种、查阅接种相关信息、自助生成和下载接种凭证、入学入园(托)预防接种凭证查询等场景。申领新版电子预防…

    山西男童遭继父生母虐待致死,凶手一审获刑后上诉

    6月10日,此前备受广大网友关注的山西临猗“男孩被生母及继父虐待致死案”有了最新进展。记者从被害男童生父张先生处获悉,在一审判决后,他向检察院申请抗诉被驳回。“目前两名被告人均已上诉,自己在等待二审的开庭。”2023年5月,此案曾因被害男童生母及继父在社交媒体持续…

    乌称1212名阵亡士兵遗体已被送返回国

    当地时间6月11日,乌克兰战俘待遇协调总部称,1212名乌阵亡士兵的遗体已被运送回乌克兰。责任编辑:刘雯图片编辑:李晶昀澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    华泰柏瑞沪深300ETF拟分红逾80亿,或刷新境内单次分红纪录

    境内ETF最高单次分红纪录或将刷新。6月11日,华泰柏瑞基金发布公告称,华泰柏瑞沪深300ETF将实施现金分红,分红方案为每10份基金份额分红0.880元,分红权益登记日为6月17日,除息日为6月18日,现金红利发放日为6月27日。Wind数据显示,截至6月10日,华泰柏瑞沪深300ETF已达378…

    长春一行道树倒塌砸中路口车辆,园林管理处:暂无人员受伤,已清理现场

    6月10日,长春市一街边大树突然倒塌,砸中路口正在等待绿灯的车辆。6月11日,长春市朝阳区园林管理处工作人员表示,事发后已安排人员现场处理倒塌树木,暂无人员受伤。树木倒塌砸中车辆据网友的行车记录仪显示,10日下午4时17分,道路前方一黑色车辆在路口等待绿灯时,被左侧一…

    因多项违法违规行为,永诚财险天津分公司及相关责任人被罚共33万元

    6月9日,据国家金融监督管理总局天津监管局行政处罚信息公开表显示,永诚财产保险股份有限公司天津分公司及其相关责任人,因多项违法违规行为受到行政处罚。罚单显示,主要违法违规行为是:编制虚假的报告、报表、文件、资料;给予投保人、被保险人、受益人保险合同约定以外的…

    给予保险费回扣或者其他利益,华泰财险天津分公司被罚11万元

    6月9日,国家金融监督管理总局天津监管局行政处罚信息公开表显示,因给予投保人、被保险人保险合同约定以外的保险费回扣或者其他利益,华泰财产保险有限公司天津分公司被罚11万元。时任华泰财产保险有限公司天津分公司总经理助理刘勇,被警告并处罚款3万元。原标题《给予保险费…

    临港新片区增值电信开放第二批试点企业授牌:新增高济健康、科戈波特两家

    增值电信对外扩大开放是国家坚定推进高水平对外开放的关键部署,也是临港新片区制度型开放的实践。澎湃新闻记者获悉,6月10日上午,临港新片区增值电信开放第二批试点企业授牌仪式举行。在此前率先获批牌照的汇丰金科基础上,临港新片区新增高济健康、科戈波特(Cogoport)两家…

    秦洪看盘|资金结构微变,或将改善A股生态

    李晶昀 AI图周三A股市场出现了震荡中重心上移的态势。其中,上证综指在早盘大幅扬升后,虽然因量能萎缩而冲劲减弱,但仍然收复周二失地,并在收盘时站上3400点整数关口。看来,短线A股有再度冲击前期高点的趋势。量化交易钝化从近期盘面来看,A股市场少了些许活性。一方面是体…

    云南曲靖“恒达煤矿3人遇难事故调查”公布:县长等12名公职人员被建议问责

    近日,国家矿山安全监察局云南局公布了去年12月20日云南曲靖市富源县恒达煤业有限公司恒达煤矿煤仓溃仓致3人遇难的事故调查报告。调查认定,该起事故为煤仓内煤矸泥堵塞形成蓬仓,处理堵仓过程中煤矸泥失稳垮落,造成煤仓溃仓,将经过的电机车的乘人车厢掩埋而发生的一起较大生…

    就医使用电梯单次收5元?医院:已和公寓达成协议,取消收费

    “就医使用电梯,单次5元。”近日,广州市天河区吉山社区医院(吉山社区卫生服务站,以下简称“吉山社区医院”)电梯旁的一则收费告示引起外界关注。6月11日,吉山社区医院杨姓负责人向澎湃新闻表示,上述收费告示是公寓方最近单方面贴出来的,“其实也没有真正收费”。6月10日…

    腾讯视频调整管理架构:孙忠怀升任BU董事长,王娟、马延琨任联席总裁

    腾讯在线视频迎重大组织升级。6月11日,澎湃新闻记者获悉,腾讯平台与内容事业群(PCG)在线视频BU发文宣布,设立在线视频BU执行委员会(OVBU Executive Committee,简称OVBUEC),作为核心决策小组,对在线视频BU的重大业务和管理事宜进行集体决策。核心决策小组由孙忠怀、王…

    东营一光伏国企负债近20亿,连同旗下9家子公司合并破产清算

    近日,山东省东营市中级人民法院发布公告,裁定受理东营光伏太阳能有限公司(简称“东营光伏”)旗下9家子公司破产清算案件,包括单县泰伏太阳能电力有限公司、东营神舟电力有限公司、东营光伏新能源开发有限公司、东营市垦利区恒阳新能源开发有限公司、东营恒阳新能源开发有限…

    代书老姜:写侨信的58年|镜相

    作者 | 马思洋指导老师 | 庄永志编辑 | 吴筱慧(本文由镜相 X 南京大学新闻传播学院合作出品,入选高校激励项目“小行星计划”。如需转载,请至“湃客工坊”微信后台联系。)读书、看报、写侨信陈勇波在泉州石狮人民路与农贸路的交叉口下车。他运气很好,在还不知道姜明典的确…