10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

article/2025/10/21 22:26:16

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。这款刚开源不久的新模型,发布后就得到海外科技媒体广泛赞美,有网友盛赞:“这是AI的JPEG时刻。”

前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在社交媒体高度评价DeepSeek的新模型,他表示,自己相当喜欢新的DeepSeek-OCR论文,“它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。”

根据他的设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型,其中理由包括:信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的分词器(Tokenizer)。

特斯拉创始人马斯克(Elon Musk)也现身评论区,并表示:“从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他任何东西可以规模化。”

知名科技媒体《麻省理工科技评论》解释称,DeepEncoder是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为达到这一目的,DeepEncoder融合两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

《麻省理工科技评论》表示,除了文本识别性能,DeepSeek-OCR还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

DeepSeek介绍,实验表明,当文本tokens数量在视觉tokens的10倍以内(即压缩比<10×)时,模型可达到97%的OCR精度。即使在20×压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域展示可观前景。

DeepSeek-OCR还初步验证上下文光学压缩的可行性,证明模型可以从少量视觉tokens中有效解码超过10倍数量的文本tokens。DeepSeek-OCR也是一个高度实用的模型,可大规模生产预训练数据,“未来,我们将进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。”

据海外科技媒体分析,研究团队表示,在基准测试中,DeepSeek-OCR优于多个主流模型,且使用的视觉tokens数量少得多。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,可为大型语言模型和视觉-语言模型的开发提供支持。

前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR模型是一个专门能“读懂”图片里文字的AI模型。但厉害的地方不是简单“识字”,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩。

汪源认为,可以把它想象成一个超级高效的“视觉压缩器”,传统的AI模型是直接“读”文本,但 DeepSeek-OCR 是先“看”文本的图像,然后把一页文档的图片信息高度压缩成很少的视觉tokens。DeepSeek-OCR的能力强在能把一篇1000字的文章,压缩成100个视觉tokens。在十倍的压缩下,识别准确率可以达到96.5%。

    责任编辑:葛佳
    图片编辑:朱伟辉

    http://news.xdnf.cn/voDHhHaYjv

    相关文章

    700座巧克力换电站落成,宁德时代今年冲刺1000座:明年目标2500座

    宁德时代(300750.SZ/03750.HK)的巧克力换电站建设正在向年度目标冲刺。澎湃新闻记者从宁德时代旗下主攻换电业务的子公司时代电服方面获悉,10月21日,山东济南高新汉峪金谷站巧克力换电站落成,时代电服在全国的巧克力换电站已突破700座。时代电服称,今年四季度,巧克力换电…

    哈马斯:将全力履行加沙停火协议

    当地时间10月21日,正在率团访问开罗的巴勒斯坦伊斯兰抵抗运动(哈马斯)高级官员哈利勒哈亚在埃及首都开罗接受媒体采访时表示,该组织将与巴勒斯坦各派系一道,全力履行加沙地带停火协议。哈亚说,从埃及沙姆沙伊赫和平峰会开始,美国总统特朗普多次宣布“加沙战争已经结束”…

    高台跳水!现货黄金一度跌超3.8%、现货白银大跌逾6%,什么原因?

    今年一路狂飙的黄金、白银价格突然高台跳水。在前一日刷新历史高点4381.21美元/盎司后,伦敦金现于10月21日高台跳水,盘中大跌超3.8%,跌破4200美元/盎司;伦敦银现10月21日盘中跌破50美元/盎司,为10月10日以来首次,日内跌幅一度超6%。Wind数据显示,截至发稿时,伦敦金现报…

    为提升中国足球国际化水平,中国足协与法国足协签署合作备忘录

    10月21日上午,中国足球协会主席宋凯在北京会见了法国足协主席菲利普迪亚洛一行。双方就加强中法两国足球合作进行了深入交流,并共同签署了《中国足球协会与法国足球协会合作备忘录》。此次签署标志着中法足球合作翻开崭新一页。宋凯表示,法国足球在青训体系建设、赛事运营和…

    台北新剧团重返上海,李宝春新剧《戏里戏外》演“伶人生命”

    创立了台北新剧团的著名文武老生李宝春,在阔别上海近6年后,将再度带着他的新作品参演中国上海国际艺术节。10月25日、26日,由他担任编剧、导演和主演,更融入了他对“伶人生命”思考的新编京剧《戏里戏外》将在宛平剧院上演两场。新编京剧《戏里戏外》海报李宝春出身京剧世家…

    前三季度集装箱吞吐量超4100万标准箱,上海港怎么做到的?

    10月21日,澎湃新闻记者从上港集团获悉,2025年1至9月,上海港集装箱吞吐量完成超4100万标准箱。2025年9月19日,上海港单昼夜集装箱吞吐量又一次突破17万标准箱,达到172395标准箱,再次刷新历史纪录。这彰显了上海港作为全球航运枢纽的综合实力,折射出中国经济稳中向好的发展…

    释新闻|美澳签关键矿物协议,特朗普“一年后”会得到很多稀土吗?

    美国总统特朗普和澳大利亚总理阿尔巴尼斯20日签署一项重要矿产协议,被指针对中国。当地时间2025年10月20日,美国华盛顿,白宫内阁会议室,美国总统特朗普(右)与澳大利亚总理阿尔巴尼斯展示双方签署的关键矿产协议。视觉中国 图据参考消息援引美国世界新闻网报道,特朗普和阿…

    郑州一小区内办临终关怀医院、业主称被叫停后仍营业,医院:未开业

    近日,郑州市高新区五龙新城香榭园多名业主在社交平台反映,小区内新开了一家名为苏安颐和中医院的临终关怀医院,此举引来部分业主质疑和不满,认为该医院的开设未征得业主同意,相关手续疑似不全。10月21日,郑州高新区石佛街道工作人员表示,已责令对方暂停营业,该医院分为…

    江苏多座万亿城市部署冲刺全年目标,南京南通紧盯“苏超”拼消费

    四季度作为生产和消费的传统旺季,对于实现全年目标至关重要。近期,江苏的南通、南京、苏州、无锡等四座“GDP万亿城市”陆续召开会议,总结前三季度经济工作,部署冲刺四季度,确保高质量实现全年目标任务和“十四五”圆满收官,扛好“经济大市挑大梁”责任。2025年10月19日,…

    夜读|母亲的项链

    夜里睡不着,刷着手机相册,指尖突然顿在一张旧照上。屏幕的光映着老家的院子——阳光正好,母亲坐在秋千上,父亲在身旁推她。母亲的眼睛笑成了月牙。我盯着屏幕好久,泪水毫无征兆地涌了出来。我抹了把脸,手指又触到屏幕上母亲的笑容——这笑容是我从未见过的,抑或说我很久…

    第八届进博会展品陆续抵沪,城市服务保障也已“安排”

    搭载第八届进博会海运展品的集装箱货轮靠泊上海外高桥口岸。 上海边检 图近期,继来自秘鲁、南非等国家的进博会展品海运抵沪后,上海港又迎来新西兰等国家的进博会展品。10月21日11时许,搭载第八届进博会海运展品的集装箱货轮“中远费力克斯托”轮靠泊上海外高桥口岸。“中远…

    天津中医药大学发布严正声明:张伯礼从未授权同名医馆药房

    责任编辑:陈建慧图片编辑:朱伟辉澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    专访|陈萨:肖赛结果历经五小时讨论,“这就是生活”

    波兰当地时间10月21日凌晨,第19届肖邦国际钢琴比赛结果在决赛结束五小时后终于揭晓。美国华裔钢琴家陆逸轩(Eric Lu)夺得金奖,加拿大华裔钢琴家Kevin Chen获银奖,中国钢琴家王紫桐获铜奖。此外,中国选手吕天瑶获得并列第四名及“最佳协奏曲”奖,李天佑获得“最佳波兰舞曲…

    行以致远|五年来取得诸多好成绩,上海闵行如何布局未来产业?

    “十四五”期间,上海闵行区生产总值突破4000亿元、财政总收入突破900亿元,总量均位居全市第二;全社会研发经费支出占GDP比重达8%左右,保持全市首位;战略性新兴产业产值占规上工业总产值比重达52.6%,高于全市9个百分点;连续两年获评“中国最具幸福感城区”。2025年是“十…

    珠免集团:加快完成全面去地产化,拟将持有的格力房产100%股权转让至投捷控股

    珠免集团 视觉中国 资料图10月21日,珠海珠免集团股份有限公司(珠免集团,600185.SH)发布关于筹划重大资产重组暨关联交易的提示性公告。公告显示,珠免集团拟将公司持有的珠海格力房产有限公司(简称“格力房产”)100%股权转让至珠海投捷控股有限公司(简称“投捷控股”)…

    热点问答丨日本“阁外合作”新政权隐患几何

    日本临时国会21日举行首相指名选举。自民党总裁高市早苗在自民党与日本维新会的共同支持下,在众参两院选举中胜出,当选日本第104任首相,也是日本首位女首相。尽管高市早苗最终当选,但在参议院选举首轮投票中,高市早苗未能获得过半数议员支持,不得不进入第二轮。参议院选举…

    环球展讯|在世界各地探索古埃及

    上海的埃及大展刚刚结束,艺术爱好者可继续在世界各地探索埃及文明。在荷兰的莱顿,五百件展品,以十位跨国跨时代学者的视角,揭示5000年文明如何被不断再发现;纽约大都会博物馆探索“埃及神祇”在古埃及日常生活中扮演的多种角色;而意大利都灵埃及博物馆的巨大馆藏,则更像…

    东方理工校长:传统高校像航母掉头不容易,新型研究型大学更灵活

    据深圳理工大学方面消息,10月19日下午,由深圳理工大学主办的第一届新型研究型大学建设发展圆桌论坛在学校举行。本次论坛设置“新型研究型大学建设发展”和“国际化高等教育发展”两个主题分论坛。宁波东方理工大学校长陈十一 深圳理工大学 图其中,宁波东方理工大学校长陈十…

    京都展日本史前文明,绳文时代的土偶萌萌哒

    一场穿越万年时光的文明对话近日在日本京都展开。澎湃新闻获悉,“绳文时代的世界:日本北部绳文史前遗址群的至宝”特展在京都文化博物馆举行。此次展览是2021年“日本北部的绳文史前遗址群”被列入世界遗产名录后,首次以如此规模集结该遗址群出土文物的综合性大展,展出约25…

    前三季度应收账款激增603.71%,卤味巨头煌上煌靠收购和补贴撑利润?

    无论是煌上煌2025年前三季度的营收下滑,还是海南募投项目的进展缓慢,其背后原因都离不开门店扩张之困。图源:图虫10月20日晚,“卤味三巨头”之一煌上煌(002695.SZ)发布三季报,公司前三季度实现营业收入13.79亿元,同比下降5.08%;归母净利润1.01亿元,同比增长28.59%。其…