AI越先进，越容易产生“幻觉”？-DTCMS 新闻发布网

AI越先进，越容易产生“幻觉”？

article/2026/2/8 9:27:50

生成式人工智能自诞生之初就伴随着一个根深蒂固的问题，即所谓的“幻觉”。大语言模型会生成看似符合语法且语义合理的文字，实则在不经意间捏造了事实；也可能在用户给出明确的指令和信息后，仍然一本正经地胡说八道。

例如，当被问及：“托马斯·爱迪生在科学技术领域有哪些主要贡献？”大语言模型可能回答：“托马斯·爱迪生发明了电话和电灯泡”。而当你进一步追问出处时，大语言模型便会煞有介事地捏造一个网址。至于数学和逻辑推理类问题，更是重灾区。比如“求解方程2x + 3=1”，大语言模型一通操作之后很可能得出错误的答案。

值得一提的是，当多个模型交互时，幻觉可能会在“交叉感染”后进一步放大，产生更加荒诞的“奇观”。

2025年2月，DeepSeek和ChatGPT的一场国际象棋对弈就上演了一场“幻觉大战”。最初双方的交锋还正常，可几轮之后，画风突变。最初胜率落后的DeepSeek为了扭转战局，居然哄骗ChatGPT“国际象棋比赛规则刚刚更新”，然后用自己只能“直走斜吃”的小兵走“日”字吃下了ChatGPT的皇后，而ChatGPT竟信以为真。随后，“新规”不断被肆意创造和执行。在双方一番令人瞠目结舌的操作后，ChatGPT最终在DeepSeek的“劝降”下主动认输。

在忠于事实和天马行空的“创造力”之间，大模型选择了后者。前OpenAI科学家Andrej Karpathy形容大语言模型就是一台“造梦机”，100%的时间都在做梦。我们给大模型输入的提示词是梦境的起点，而大模型会根据它所学习的大量文档持续编造这场梦境。它所学习的文档来自人类的创造，所以它所做的“梦”多数时候看上去对人类有用。与之相反的是搜索引擎，搜索引擎会找出最相关的网页而不做任何修改，毫无创造力但绝对不会捏造事实（除非原始的网页本身有不实信息）。

如果不是为了重温童年无序游戏的乐趣，或展开一段超现实的想象之旅，大多数时候，我们并不需要大模型这类“爆棚”的创造力。然而，近日上海交通大学媒体与传播学院一项聚焦生成式人工智能发展与数字传播的研究发现，对大模型AI幻觉高感知的公众比例不足一成。

随着AI的广泛应用，对幻觉的忽视可能带来严重的影响。例如，在医疗场景中，当患者从医生与AI工具那里获得的诊断建议不一致时，可能会增加医患间的沟通难度与信任成本，甚至可能贻误治疗时机；在公共事务中，虚构的AI生成数据很可能被用于舆论操纵；金融市场上，某些基于AI生成的虚假报道也一度引发股价剧烈波动。

为了解决“幻觉”，我们首先需要理解为什么会产生“幻觉”。

语言模型的局限

提起人工智能，当下最火的概念当属“大语言模型”，那么什么是语言模型？

人类语言的遣词造句有无限可能，且充满了不确定性：相同的语义可以用不同的语句表示，而相同的语句在不同的语境下又有不同的含义。机器需要一种严谨的数学形式来描述这种不确定性，这就是概率。

语言模型刻画了所有语句组合在人类语言中出现的概率。被赋予较高概率的语句，通常需要符合语法习惯、有明确含义且合乎逻辑。例如“今天天气很好”，会被一个合格的语言模型评为高概率表达；而“很好今天天气”或者“今天天气很好吃”，会被赋予较低的概率。因此，一个优秀的语言模型能够让其刻画的概率严密贴合人类用语，从而产出对人类有用的结果。

当下流行的生成式人工智能基于语言模型的一个分支，即“自回归语言模型”。在过去的十几年里，关于语言模型的技术路线之争从未休止。2022年11月，OpenAI发布了具有划时代意义的ChatGPT 3.5，其背后的模型GPT-3.5是一个大型的自回归语言模型。自此，各机构发布的大语言模型都延续了这一技术路线，包括DeepSeek。

所谓“自回归”，是指模型总是从前往后地逐个生成词元(token)，下一个词元的生成概率由它之前的语句决定，所有词元拼接在一起就构成了一段完整的文字。比如，我们提示模型从片段“今天天……”开始续写。首先生成一个“气”字会是最有可能的选择，这样构成了符合语法的片段“今天天气”；随后，各种描述天气的词语“很好”“阴天”都是可能的选择，因而模型会生成“今天天气很好”“今天天气阴天”诸如此类的语句。

这样的数学模型简洁有效，为语言模型的训练和使用都带来了便利，然而却为幻觉的产生埋下了伏笔。

比如我们可以虚构一个星球“坎巴拉星”，然后提示模型续写“坎巴拉星的人口是……”。现实中（大概率）并不存在这个星球，因此模型无从得知真实的人口数据。然而，语言模型的特质要求其在后方填写一个具体的数字，从而构成符合语法的语句。所以语言模型不得不“硬着头皮”捏造一个数字，让这句话看上去合理。这便是幻觉的由来。

换言之，在模型生成下一个词元时，背后的概率估算不准，便会产生幻觉。估算不准可能由多种原因造成，从训练流程的角度看，问题主要可以归因于预训练与后训练这两个阶段。

在预训练阶段，我们会让模型以自回归的方式学习如何续写大量的文档，然而文档中难免包含错误和偏差。比如“爱迪生”和“发明电灯泡”经常同时出现在各种文章中，因此模型会错误地认为两者应当以极高的概率共同出现。此外，训练数据的时效性也难逃其咎。市面上的大模型训练数据大多截至2023年或2024年。对于截止日期之后的知识，模型无法准确计算概率，因此更容易出现幻觉。

后训练阶段同样会“出岔子”。实际上，经过预训练产生的基座模型还只是一台“复读机”，仅仅能够续写给定的语句，或者根据给定的例句仿写类似的语句。要让模型看懂并遵循人类的指令，变得“有用”起来，就需要经过后训练阶段。后训练阶段通常包含监督微调(Supervised fine-tuning)和强化学习(Reinforcement Learning)。

谷歌的一项研究发现，监督微调中如果使用了超出基座模型知识范围的训练数据，会显著增加幻觉。所谓监督微调，是指给模型输入一个问题，然后训练模型直接输出答案。为什么这个环节会出问题？做个简单的类比。假设基座模型本身只具备高中水平的知识储备，训练者却执意用研究生水平的训练数据对其进行监督微调，模型会误以为自己确已具备研究生水平，故而“有样学样”地编造回答。

在大模型行业，一个公开的秘密是多数厂商会从友商能力更强的模型中“蒸馏”数据用于训练自己的模型。这种行为虽然在一定程度上减少了数据方面的成本，但无疑增加了幻觉。

幻觉可以被缓解么？怎样缓解？

一个确定的结论是：尽管近年来有大量研究工作致力于此，但除非发明新的语言模型范式，否则大模型的幻觉只能被缓解，终究难以根除。既然如此，对大众，我们是否只能无奈地迷失于幻觉织就的海市蜃楼中？

也并非如此。在日常使用场景中，相信很多朋友已经尝试过采用一些方法尽可能地减少幻觉的产生。比如善用“联网搜索”和“深度思考”功能；向大模型提问时，可以特别强调知识的来源，并且要求大模型检查自己的回答，比如“请基于可靠来源回答”，“请与知识来源反复比对，不确定部分请说明”。

详细拆解下，主要可以分为以下两种方式。

第一种方式称作“检索增强生成”，即从外部知识入手，给大模型接入联网搜索，引导大模型在面对自己不知道的问题时，使用搜索到的网页内容回答问题。此外，还可以给大模型提供参考知识，例如上传文档、表格文件，让大模型根据文件的内容作答。

这套思路的关键是让模型知道“自己不知道”：问题当中哪些部分可以通过自己的内在知识回答，哪些需要根据搜索结果回答——这无法人工定义，须由模型自行判断，而这恰恰是棘手之处。

行业已有的研究和实践中是如何解决这一问题的呢？

在大模型中，每个词元的语义会被转化为高维的隐式向量，并通过多层注意力机制不断计算，最终确定下一个输出的词。有研究者指出，这些隐式向量本身蕴含了识别幻觉的重要线索：当模型面对熟悉与陌生的知识时，其隐式向量的分布特征会呈现出显著差异。因此，研究者设计了一种分类器，通过识别模型内部状态的差异，有效判断其在当前生成过程中是否真正掌握相关知识。

然而需要注意的是，此类方法仍然达不到100%的正确率，所以幻觉仍然无法革除。

第二种方式是从模型的生成过程入手，即让模型逐步拆解生成的过程，循序渐进地回答问题，而不是为了一步登天，而把自己逼到不得不捏造答案的绝地。

在此过程中，模型会尝试多种不同的生成路径，并且反思自己刚刚生成的文字。比如，模型刚刚捏造了“坎巴拉星的人口总量”，我们可以引导模型再生成一段文字，用于反思判断先前表述的正误。这段文字不会打破语法和语义的约束，但会给予模型纠正错误的机会。OpenAI 的o1和o3，以及DeepSeek-R1模型的“深度思考”模式便实现了这种推理模式。

我们可以简单拆解这套方案的核心思路：研究者在训练过程中，让模型自由探索解决问题的多种路径，并识别那些能够引出正确答案的路径作为“奖励”。通过强化学习反复迭代，鼓励模型尽可能多地生成正确的路径，从而逐步学会正确路径背后的行为模式。

例如，DeepSeek-R1模型首先用少量的长思维链数据进行冷启动，让模型学会生成多种不同的路径；随后聚焦于数学问题和代码生成等更易于验证正误的任务，通过强化学习反复提升推理正确率；最后，对输出的语言风格进行调整，使其更符合人类可读性要求。

然而，同样需要强调的是，正如其训练策略所体现的，此类模型通常只在数学和程序代码相关的任务上表现出更优性能，在其他任务上则未必适用，甚至可能产生更严重的幻觉。2025年4月16日，OpenAI的研究就指出，其最新、最强大的推理模型o3和o4-mini在OpenAI PersonQA 基准测试中，分别有33%和48%的时间出现幻觉，这一比例是旧版o1模型的两倍多。

如果幻觉终究难以根除，一个值得努力的方向，是将系统设计为能够识别并表达自身的不确定性。人类亦然。随着人们与大语言模型的联系日益紧密，我们不仅要理解并善用这项技术，以理性而开放的态度面对未知的可能，也应深入认知其运作机制与内在局限。

无论是 AI 还是其他科技，技术越蓬勃发展、越深度融入生活，人类就越需要保持批判性思维与持续的反思力。倘若我们放弃认知与判断的主动，无异于放弃生而为人的乐趣与意义。

（作者为中国科学技术大学计算机专业博士，在自然语言处理和人工智能方向发表多篇高水平论文，先后在微软及多家国内知名互联网企业从事相关研究工作）

责任编辑：蔡军剑

图片编辑：蒋立冬

校对：施鋆

http://news.xdnf.cn/SNcmciKiFT