MIT论文解读：LLM 会被自身历史回复拖累，上下文污染会导致多轮对话质量衰减

2026-03-11 4 飞机号购买网站

新建对话的每一回过程，大概都有助于为AI清理大脑之中的毒素。有一项最新的研究得出这样的发现，致使AI在长对话里表现变差的主要原因，或许正是其所言之处。

自我复制的错误

研究人员针对WildChat跟ShareLM这两个真实对话数据集开展工作，从当中抽取了数千条用户与AI产生的聊天记录接着展开分析，他们经由这些分析发现，于典型的多人对话里可知，有36.4%的用户所提出的问题是完全不依靠任何历史信息的，并且用户能够随时进行加入或者离开话题的操作，而这也就意味着超过三分之一的对话轮次在基本性质上是自给自足的。

当你于多轮对话里进行追问细节之际，AI所看到的并非是你最新提出的那个问题。它接收到的乃是整个对话的历史情况，这事涵盖了它自身上前给出的每一条回复的全部文字内容。而这些回复之中，极有可能包含着早期出现的错误判断、事实方面的幻觉或者措辞层面的偏差。

 # 条件 A - 标准方式（今天每个聊天机器人都在做的事）  
 context = [user_1, assistant_1, user_2, assistant_2, …]  
 # 条件 B - 省略助手回复（没人尝试过的做法）  
 context = [user_1, user_2, user_3, …]  
 # 去掉所有之前的 AI 回复。只保留人类的消息。  
 # 然后比较质量。就这样。这就是整个实验。

上下文污染的真相

该研究团队把这种现象称作上下文污染，处理新鲜用户提问，模型没有任何特殊标记，来区分哪些是用户给出的外部信息，哪些是自身之前生成的输出，它只能以同样方式处理所有文本。

若模型对自身先前回复过度依赖，那么早期错误假设会持续传播到后续对话轮次。这种自我强化循环致使长对话出现质量滑坡，此质量滑坡并非源于随机系统疲劳或模型故障，而是存在明确成因所致的结构性问题。

七成历史的浪费

把AI过去的回复从对话数据里边去除掉，进而节省下来的可不单单是计算资源以及上下文空间，更为关键的是将模型自我污染的途径给阻断了，分析表明，除开36.4%完全自主性的询问之外，还要大约三分之一那种尽管包含历史方面信息引用行为的交谈，然而这些引用却并未给出任何能够让模型去运用利用的新型信号。

分开来看的两部分，加起来之后，在大概70%的典型对话当中，AI所存储的历史记录，要么是不具备关联度的噪声，要么是出现了失真情况的信息源。这些积累而成的文本，起到的作用并非是帮助模型能够更好达到对用户的理解，相反，却变成了致使回复质量下降的主要因素。

模型的差异表现

各不同规模的模型，针对自身历史记录的反应，呈现出显著的差异，此差异十分明显，不容忽视。就开源的小型推理模型而言，像DeepSeek-R1-8B以及GPT-OSS-20B这两例，将其助手历史记录予以删除，对于其回复质量，基本上不存在影响，它们所能展现出的外在表现，始终维持在稳定的状态，毫无波动。

模型中能力更为强大的那些呢，好像能够从它自身先前所处的上下文里提取出更多有价值的信号，并且也更加擅长去运用这些上下文，而不会被误导偏离方向。这就意味着，模型对于上下文的利用能力跟它的整体智能水准之间存在着正向的关联，能力更强的模型拥有更为出色的抗污染能力。

自适应省略策略

并非论文所主张的是全面删除所有历史记录，而是要引入选择性过滤机制，研究团队训练了一个专门的分类器，它用于逐轮判断保留AI之前的输出对于当前回复到底是有益的还是有害的。

于这般自适应的省略策略情况之下，回复的质量，还有上下文的长度，一同获得了改进。分类器对于哪些历史轮次极有可能招致错误，哪些涵盖着针对当前对话颇具价值之信息，能够予以识别，进而达成动态的上下文管理。

对话架构的重思

对于AI Agent系统，特别是其中那些要连续运行数十轮乃至上百轮任务的编程助手以及客服机器人而言，这个发现具备根本性的设计意义。当上下文长度碰到模型上限之后，系统通常会着手压缩以及裁剪历史记录用以维持运转。

在过去的那些年月里，行业持续不断地处于竞赛状态，去追逐更为漫长的上下文窗口，先是从一百二十八千个令牌提升到一百万令牌，而且其目标一直以来都是往里面塞进更多的内容。然而，这项研究却提出了一种从根本上截然不同的设计哲学：要是不存在具体且合乎情理的缘由，那就不要保留助手的回复。有时候，人工智能所能做到的最为明智的事情，便是忘掉它方才所说的话语。

当你下一次运用AI助手之际，你将思忖选择持续那冗长的对话，抑或是径直去轻点那个新建对话的按钮？最后会做出怎样的抉择呢？