RLM来了，RAG的黄金时代落幕了

发布时间：2026-03-27 07:44 浏览量：49

你有没有这种感觉，给AI丢进去一篇很长的文档，内容明明很丰富，但它的回答却越来越水。尤其是超过一定长度之后，AI开始"迷路"，重要的信息它视而不见，答非所问倒是第一名。

这个问题，有个名字，叫

上下文腐烂

。

听起来特别反直觉吧？按理说，给AI的信息越多，它应该越能给出准确的答案。但现实恰恰相反——上下文窗口塞得越满，模型对每个token分配的关注度反而越低。1000个token的时候，关键信息是信号；100万个token的时候，它就变成了噪音。所以"大海捞针"测试AI经常翻车，不是它不努力，是注意力机制天生有这个缺陷。

更扎心的是，RAG（检索增强生成）——这个过去三年行业里公认的"长上下文最优解"——也只是在掩盖这个问题，而不是解决它。RAG的逻辑很简单：文档太长就别全塞进去，先用向量搜索找到相关的几个片段，再让AI基于这些片段回答。这听起来很合理，但它的致命弱点是：

它只能找到局部相关的碎片，无法理解跨越整个文档的全局逻辑

。比如你问一个需要综合全书数据才能回答的问题，RAG就会原地失效——因为答案分布在不同章节，不在任何单一片段里。

RAG运行底层逻辑

所以当Recursive Language Models（RLM）这篇论文出来的时候，圈内人说它是"RAG的终结者"，一点都不夸张。

RLM的核心思路非常反常识：

不要强迫AI看完所有内容，而是让它学会"导航"。

打个比方，传统方式，不管是直接塞上下文还是RAG，都是把整本菜谱塞给AI，然后问它"这个菜怎么做"。AI得把整本书都消化一遍，再给你答案。

RLM的做法是：给AI一个图书馆管理员的角色。它不是去阅读整本书，而是知道书在哪个架子、哪一层，知道怎么让子Agent去专门翻阅某一章节、某一页，最后把各处找到的关键信息汇总起来。

具体怎么做到的？它把长上下文存在一个"外部环境"里，就像Jupyter Notebook，变量都摆在那儿，但模型本身只持有"元数据"：文档有多长、大概讲什么、怎么访问各个部分。然后模型通过

写Python代码

来操作这些变量。它可以切片、遍历、建索引，然后决定下一步去翻哪一页。每个子任务在隔离的小上下文窗口里运行，互不干扰，最后只把关键发现返回给主模型。

RLM运行底层逻辑

最妙的地方在于：主模型（根模型）是一个编排者，而不是读者。它不直接输出答案，而是调度子Agent、运行代码、写入变量。只有在收集到足够证据之后，才会生成最终答案。繁重的工作是横向展开的，而不是在主上下文中堆叠。

效果呢？论文里的测试数据相当震撼：

在600万~1100万token的超长文档基准测试上，RLM达到了91.3%的准确率，RAG只有51%，摘要Agent是70.5%。而且RLM的成本只有RAG的0.3%。

理解上下文准确率对比

这不是微调，这是直接改变了解题思路。

这是一次从"猜测"到"推理"的质变。

RAG解决的是"信息在哪"的问题，本质上还是搜索引擎的思路。RLM解决的是"这个问题该怎么拆解、步步求证"的问题，这是推理，是思考。

RAG不会一夜消失。对于速度敏感、上下文较短的场景（比如客服问答），它依然是最高效的选择。但对于高价值工作流——法律文档分析、医疗报告解读、长篇研究报告综合——RLM带来的准确性提升远超过它的延迟代价。推理成本在持续下降，"慢一点但想得更清楚"会越来越被市场接受。

有意思的是，论文的作者说RLM和RAG不是非此即彼的——

你完全可以在RLM的子Agent调用里使用RAG

。RLM负责全局导航，RAG负责局部快速检索，两者结合可能才是未来的最优解。

所以回到开头的问题：RAG要死了吗？

不会死，但它的统治时代结束了。它从一个完整的解决方案，退化成了一个模块。这是AI能力进化史上很典型的一幕：每个"最优解"都会被下一个更精确的理解所取代。

看完全文后有什么不理解的地方可以在评论区进行提问哦

标签：黄金时代 agent rag token rlm

RLM来了，RAG的黄金时代落幕了

相似文章

资讯分类

热门资讯

热门标签

热门产品