RLM来了,RAG的黄金时代落幕了

发布时间:2026-03-27 07:44  浏览量:1

你有没有这种感觉,给AI丢进去一篇很长的文档,内容明明很丰富,但它的回答却越来越水。尤其是超过一定长度之后,AI开始"迷路",重要的信息它视而不见,答非所问倒是第一名。

这个问题,有个名字,叫

上下文腐烂

听起来特别反直觉吧?按理说,给AI的信息越多,它应该越能给出准确的答案。但现实恰恰相反——上下文窗口塞得越满,模型对每个token分配的关注度反而越低。1000个token的时候,关键信息是信号;100万个token的时候,它就变成了噪音。所以"大海捞针"测试AI经常翻车,不是它不努力,是注意力机制天生有这个缺陷。

更扎心的是,RAG(检索增强生成)——这个过去三年行业里公认的"长上下文最优解"——也只是在掩盖这个问题,而不是解决它。RAG的逻辑很简单:文档太长就别全塞进去,先用向量搜索找到相关的几个片段,再让AI基于这些片段回答。这听起来很合理,但它的致命弱点是:

它只能找到局部相关的碎片,无法理解跨越整个文档的全局逻辑

。比如你问一个需要综合全书数据才能回答的问题,RAG就会原地失效——因为答案分布在不同章节,不在任何单一片段里。

RAG运行底层逻辑

所以当Recursive Language Models(RLM)这篇论文出来的时候,圈内人说它是"RAG的终结者",一点都不夸张。

RLM的核心思路非常反常识:

不要强迫AI看完所有内容,而是让它学会"导航"。

打个比方,传统方式,不管是直接塞上下文还是RAG,都是把整本菜谱塞给AI,然后问它"这个菜怎么做"。AI得把整本书都消化一遍,再给你答案。

RLM的做法是:给AI一个图书馆管理员的角色。它不是去阅读整本书,而是知道书在哪个架子、哪一层,知道怎么让子Agent去专门翻阅某一章节、某一页,最后把各处找到的关键信息汇总起来。

具体怎么做到的?它把长上下文存在一个"外部环境"里,就像Jupyter Notebook,变量都摆在那儿,但模型本身只持有"元数据":文档有多长、大概讲什么、怎么访问各个部分。然后模型通过

写Python代码

来操作这些变量。它可以切片、遍历、建索引,然后决定下一步去翻哪一页。每个子任务在隔离的小上下文窗口里运行,互不干扰,最后只把关键发现返回给主模型。

RLM运行底层逻辑

最妙的地方在于:主模型(根模型)是一个编排者,而不是读者。它不直接输出答案,而是调度子Agent、运行代码、写入变量。只有在收集到足够证据之后,才会生成最终答案。繁重的工作是横向展开的,而不是在主上下文中堆叠。

效果呢?论文里的测试数据相当震撼:

在600万~1100万token的超长文档基准测试上,RLM达到了91.3%的准确率,RAG只有51%,摘要Agent是70.5%。而且RLM的成本只有RAG的0.3%。

理解上下文准确率对比

这不是微调,这是直接改变了解题思路。

这是一次从"猜测"到"推理"的质变。

RAG解决的是"信息在哪"的问题,本质上还是搜索引擎的思路。RLM解决的是"这个问题该怎么拆解、步步求证"的问题,这是推理,是思考。

RAG不会一夜消失。对于速度敏感、上下文较短的场景(比如客服问答),它依然是最高效的选择。但对于高价值工作流——法律文档分析、医疗报告解读、长篇研究报告综合——RLM带来的准确性提升远超过它的延迟代价。推理成本在持续下降,"慢一点但想得更清楚"会越来越被市场接受。

有意思的是,论文的作者说RLM和RAG不是非此即彼的——

你完全可以在RLM的子Agent调用里使用RAG

。RLM负责全局导航,RAG负责局部快速检索,两者结合可能才是未来的最优解。

所以回到开头的问题:RAG要死了吗?

不会死,但它的统治时代结束了。它从一个完整的解决方案,退化成了一个模块。这是AI能力进化史上很典型的一幕:每个"最优解"都会被下一个更精确的理解所取代。

看完全文后有什么不理解的地方可以在评论区进行提问哦