AI智能体下的CPU,或重回“黄金时代”
发布时间:2026-04-14 13:30 浏览量:2
如果AI只是一问一答的聊天机器,算力的答案确实很简单——有多少GPU,就有多少想象力。在那段以对话模型为主角的周期里,CPU更像一位低调的调度员,负责数据的迎来送往,而非决定反应快慢的核心角色。然而,当AI从对话框里走出来,开始调用工具、读写代码、编排任务,变身真正的“数字代理人”时,算力游戏规则变了。分支指令的暴增让擅长矩阵乘法的GPU一时“水土不服”,而那位退居幕后的CPU,却恰好站上了控制流与记忆体风暴的中央。
在对话大模型时代,CPU一度退居幕后
在AI的上一程里,行业几乎被一条逻辑完全主导:算力决定上限,GPU就是算力的核心。无论是千亿参数模型的训练,还是大模型的实时推理,核心计算都落在矩阵乘法之上——而这恰恰是GPU架构设计的绝对主场。在这种范式下,CPU退居幕后,负责数据预处理、任务调度和结果后处理等“总指挥”式的工作,其性能高低似乎并不直接决定用户体验。
但走到2026年,AI产业完成了一次关键范式切换。AI不再只是一“回答问题的对话机器,它开始真正走进现实世界“执行任务”。这个转变带来的不仅是能力的跃迁,更是一场算力需求的底层重构。大模型训练曾是AI算力消耗的主体,而到了2025年下半年,AI推理的支出正式超过了训练,行业迎来所谓推理翻转。当重心从训练转向推理和规模化落地,算力的评判标准也随之改变——不再是谁的GPU更强,而是整个系统能不能跑起来。
在对话模型时代,一个用户请求的处理链路相对简单:CPU将文本转换为token,GPU运行模型生成响应,CPU再将token转换回文本。在这个往返中,GPU的计算时间主导了总延迟,CPU几乎不在性能的考量范围内。但当工作负载变成智能体,情况就截然不同了。一个典型的Agent任务需要执行多步推理、调用API、读写数据库、运行代码、解析文档,然后将所有中间结果编排成最终输出。
4月8日,知名半导体分析机构SemiAnalysis首席分析师Dylan Patel在一次深度访谈中指出,由于AI工作负载的范式正在从简单的文本生成向复杂的“智能体(Agents)”和“强化学习(RL)”演进,CPU正面临极其严重的产能短缺。
Agent的工作机制,助力CPU价值重估
为什么智能体对CPU的依赖如此之大?答案藏在Agent的工作机制里。
传统对话模型的分支极少,一次推理就是一次推理。但智能体的行动阶段充满了if/else判断和系统调用。以Manus为代表的主流Agent架构,会为每个任务分配一个隔离的云端沙箱虚拟机,任务之间可以并行但控制流完全不同——有的在浏览网页,有的在修改代码,有的在部署环境。这类分支类任务如果放在GPU上执行,控制流发散会直接导致算力利用率急剧下降。而分支预测和处理恰恰是CPU微架构几十年来持续优化的核心能力。这正是东吴证券所说的“执行控制流CPU化”。
与此同时,智能体的记忆体系也在发生迁移。在长上下文场景下,大模型推理会产生巨大的KV Cache,其占用随对话轮次和上下文长度线性增长,很快就会耗尽GPU宝贵的HBM容量。业界普遍采用的解决方案是将KV Cache迁移到CPU内存——通过KV Cache Offload技术,搭配大容量DDR5/LPDDR5内存和CXL扩展,CPU成为兼顾吞吐、扩展性和成本效率的KV Cache最优容器。东吴证券将这种现象概括为“记忆体系去GPU化”,这意味着CPU的角色已经从单纯的调度中枢,扩展为同时承载控制和部分存储功能的核心资源池。
值得注意的是,智能体工作负载不仅在质上挑战CPU,在量上也形成了空前的压力。与标准生成式AI相比,代理式AI部署的token消耗量增加了20到30倍。每一次用户交互背后都包含着多步推理、工具调用和跨Agent协调,这个过程的token消耗远远超过单次问答。Gartner甚至预测,到2027年将有40%的代理项目因基础设施成本超支而被取消。高昂的成本不仅来自GPU推理,相当一部分正来自CPU端的持续开销。
海外大厂开始“堆核竞赛”,行业有望重回高增长
就在这种CPU需求量激增但产能受限的临界点上,行业巨头的动向往往最先泄露天机
2026年初,英伟达做了两件看似偏离主业的事:一是掏出20亿美元追加认购CoreWeave股票,并在其平台上部署专为代理式推理设计的Vera CPU;二是在下一代Rubin架构中大幅提升CPU核心数,并开放NVL72机柜对x86 CPU的支持。
与此同时,传统CPU厂商正在Agent的驱动下集体向超多核架构冲刺。AMD推出的Turin最高可达192核;英特尔的Sierra Forest采用纯能效核设计,核心数可达144甚至288核。超多核CPU以更高的并行度和更低的单位功耗,支撑大规模、长期运行的Agent执行环境。随着Agent商业化的推进,厂商必须持续压低每次任务的执行成本——在这个目标下,核数越多,单位成本越低,CPU的堆核竞赛或许才刚刚开始。
从投资视角来看,IDC 预计 Agent 年执行任务数将从 2025 年的 440 亿次快速增加至 2030 年的 415 万亿次,对应年复合增长率达 524%,Agentic AI 发展正驱动 CPU 迎来新一轮成长机遇。
在A股相关公司方面,东吴证券研报指出 CPU:澜起科技、海光信息、广合科技、龙芯中科、中国长城等。 数据库:星环科技(基于ARM 优化,与NV-GPU-GraceCPU 适配)。
结语:CPU有望重回“黄金时代”
从对话模型的GPU中心主义,到智能体时代的CPU价值回归,算力版图的位移折射出AI应用形态的深刻进化。当推理支出超越训练,当Agent的token消耗量数十倍于单次问答,基础设施的效率命题就不再只是谁的GPU更强,而是整个系统能否以可持续的成本跑起来。CPU凭借其在分支预测、内存扩展和并发控制上的架构优势,从单纯的调度中枢跃升为承载控制逻辑与记忆体系的核心资源池。
海外大厂的堆核竞赛只是这场变局的外显征兆。其共同指向一个清晰方向:面向大规模、长周期运行的代理式AI负载,超多核CPU正成为成本与能效的关键平衡点。可以预见,随着Agent商业化的深入,算力体系的评判标准将被部分改写——异构计算的天平不再一味向GPU倾斜,CPU正以更加主动的姿态,参与定义下一代AI基础设施的形态与边界。