不卷速度卷验证,陈天桥MiroMind精准预测15天后黄金价格

发布时间:2026-03-16 14:34  浏览量:1

鹭羽 发自 凹非寺

一睁眼!

陈天桥

带队的大模型黑马MiroMind再度满血归来——

正式发布新一代重型推理智能体:

MiroThinker-1.7

MiroThinker-H1

何为重型?延续V1.5的深度推理基因,但任务更复杂、结果更精确。

眼见为实,以基准测试为例。

MiroThinker-1.7系列发布即霸榜多项深度研究任务测试,其中MiroThinker-H1刷新

SOTA

,超越Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等一众行业顶尖闭源模型:

BrowseComp(网页检索类大模型基准测试):88.2%BrowseComp-ZH(BrowseComp的中文适配版本):84.4%GAIA-Val-165(GAIA基准测试验证集):88.5%HLE-Text(人类终极测试):47.7%

另外开源模型MiroThinker-1.7(235B)和小尺寸的MiroThinker-1.7-mini(30B)也在效率与性能之间达到了最优平衡。

换言之,针对差异化的复杂推理需求,MiroMind已经为开发者们准备好了各式精准匹配的模型方案,致力于

将算力用在刀刃上

此外,新模型不仅通用任务强,在科技金融等专业领域同样表现亮眼,它跳出了传统LLM聊天交互的范畴,转而能够承担起真实的长链条智力任务。

而这是以牺牲模型推理速度为代价的,所以u1s1,MiroMind真的很大胆。

当其它大模型厂商都在卷速度,MiroThinker系列

专为复杂长期任务而生

,结果V1.5大获全胜、V1.7再度突破。

下面老规矩,我们实测走起~

实测之前,先简要介绍一下交互界面。

和常规大模型对话窗口一致,左下角Pro按钮开启专业模式,模型尺寸更大、推理更深入,推理时间也会相应延长。

支持文件上传和语音输入,还有新上线的

MiroMind App

可用。

话不多说,先拿最近的

F1上海站正赛

练练手。众所周知,受赛车性能、车手状态、环境因素影响,F1比赛结果预测难度相当之高。

这就非常考验模型实时抓取信息、综合判断多方面因素的能力。

于是在

比赛前2小时

比赛中1小时

比赛最后半小时

三个关键时间节点,我们分别让MiroThinker实时预测排名情况,并与真实结果进行比对。

首先是比赛正式开始前2小时:

在即将举办的F1上海站上,对选手排名进行预测。

预测结果如何暂且不提,光论推理过程和答案的详实程度,就已经遥遥领先~

仔细看模型思考过程,MiroThinker建立起

一条极为完整的信息搜索路径

,包括比赛策略、车队实力情况、潜在变数等:

确认正赛时间和地点→收集最新的上海站排位赛、冲刺赛以及当前赛季情况辅助→从规则变化到天气情况逐步细化→汇总给出合理预测。

其中每一步都在反复验证,以确保后续推理的可靠性。

至于最终给出的赛前预测也很

全面

,先是直接甩出核心结论一目了然,预测梅赛德斯大获全胜、法拉利紧随、迈凯伦和红牛位列第二梯队。

P.S.模型用词精准专业,使用“完赛”这一定语,也是未卜先知到了本次比赛的退赛盛况(doge)

然后给出简要的预测逻辑以及观赛建议,用户体验感拉满。

值得一提的是,MiroThinker还支持

一键生成网页报告

。就这排版这审美,妥妥的打工人福音~

我们也将该问题同时交给ChatGPT、Gemini和DeepSeek进行预测。

ChatGPT

回答相对简略,对影响变量和预测理由描述较少。

Gemini

的亮点是除了列举选手排名,还提供赛事核心看点,但在整个答案的完整度上还是MiroThinker占优。

DeepSeek

的预测结果只关注到了选手历史成绩和车辆情况,考虑得不够深入。

反观MiroThinker,它是所有模型中,唯一关注到当前天气状况的推理大模型,足以证明其专业度。

再看比赛进程中1小时,MiroThinker对

实时信息

的抓取更为突出,既关注到了当前的退赛情况,也能有效分析出每位选手的比赛节奏和车队战略,逐步微调自己的预测答案。

到最后30分钟,MiroThinker给出的预测答案已经和最终结果

完全一致

由此可见,MiroThinker在三次预测中

逐步完成了信息收敛和复盘优化

。最终实现,即使F1赛事情况瞬息万变,但每一次MiroThinker都能给出最贴合当前情况的预测。

有趣的是,再回过头看第一轮预测结果,几乎所有大模型都预测梅赛德斯包揽前两名,但在第三名的预测上争斗相当激烈,MiroThinker给了和法拉利携手多年的勒克莱尔,ChatGPT和Gemini支持技术老道的汉密尔顿,DeepSeek反手给了诺里斯。

结果万万没想到,迈凯伦双车退赛、法拉利内斗,勒克莱尔再度陷入第四魔咒,“must be the water”(那一定是水)导致的~(doge)

此前,我们也尝试用MiroThinker预测金融市场,提前15天预估黄金价格。

2026年2月25日的黄金价格(XAU/USD)会是多少?

模型当时预测金价是

$5185/oz

,实际Fortune报价

$5181

,150 Currency报价$5185.89,CME GCG26收盘价为$5206.40,误差仅为0.08%($4),保持在合理误差范围之内。

综合来看,无论是短期的通用场景预测,还是中长期的专业场景预估,MiroThinker都能做到有理有据,实际结果与模型预测高度吻合,且思考过程全部清晰可见。

虽然它还没有做到像其它模型一样秒出答案,需要一到两分钟的等待时间,但在答案完整度和逻辑链上已经是next level,足以应对绝大多数真实推理任务。

那么为什么MiroThinker能够做到这一点呢?

还要说回模型的核心技术突破——

重型求解器

(heavy-duty solver)。

当前行业内要提升推理深度,普遍采用的方案是通过强化学习将模型CoT运算时间延长,这类优化后的模型在数学、编程等领域表现突出。

而MiroThinker-1.7不仅仅是延长思考时间,更是强调模型的可验证性和有效交互。具体表现在两项关键技术升级上:

1、升级智能体原生训练。

MiroMind注意到一个现象,如果模型每一步决策本身就质量不高,即使让模型完成更多轮的交互,最终结果也只是在放大低质量决策。

所以提升推理性能的关键不是交互次数的叠加,而是专注增强每一步的质量,也就是提升模型的

智能体原生能力

(agent-native competence),包括三步:

规划更可靠:一开始就把问题拆对、把路选对。推理更准确:每一步判断都经得起验证和反思。长程不走偏:在复杂任务中始终对齐最终目标。

为此,MiroThinker-1.7在训练过程中新增了一个

mid-training

(中期训练)阶段。

借助大规模的高质量任务数据,重点训练模型的规划、推理和总结能力,使其建立起更强的Agent基础能力,比如目标分解、选择合适的工具调用、理解工具返回结果、整合生成最终答案。同时该阶段也扩大了模型的通用性。

在此基础之上,还会加入

SFT

(监督微调)、

DPO

(偏好优化)、

RL

(强化学习)进一步将Agent能力内化,实现长时任务稳定推理。

2、以验证为核心的重型推理模式。

然而,要提升单步推理质量,也不能仅仅依靠模型自身的Agent推理能力,还需要引入验证器加以约束,可分为局部验证和全局验证:

局部验证

:在推理的每一步,系统都会停下来自我审查,只有通过了局部验证,系统才会允许继续探索该条路径。在一定程度上,局部验证能够打破传统AI的概率偏置,找到也许当下瞬时概率较低但实则最正确的路径。

全局验证

:在系统生成了几条完整的推理路径后,模型会回溯整条数据链,确保最终答案是推理环节最严密的,而不是语义最流畅、看似逻辑自洽的。

总的来说,前者显著增强智能体原生能力,后者提升交叉验证可信度,二者深度融合,让模型在面对复杂推理问题时能够表现出精准可验证的交互潜力。

另外值得关注的是,MiroMind还观察到一个“反直觉”现象:在引入验证机制后,

模型交互步骤数量明显减少

按照常规逻辑,往往步数越多、思考越久,模型性能就越强,即Heavy-duty(重型)。

而该现象则说明验证器在这里充当的还有过滤器的作用,能够帮助模型及时筛除掉没有信息增益的步骤,将算力集中分配到真正推动问题求解的环节上。

虽然总步数减少了,但每一步包含的逻辑推理质量更高了,整个推理过程变得高效且精密。

这就引出了MiroThinker系列模型的核心理念——

扩展有效交互

从V1.5到V1.7,模型的每一次迭代都能产生行之有效的结果,这未尝不是对MiroThinker交互理念的有力验证。

简单来说,MiroThinker强调

慢下来、想更多

虽然通过增加对话次数、工具调用,能够非常直观迅速地刷新基准测试分数,但一旦中间步骤错误,错误就会像滚雪球一样累积,直至系统彻底崩溃。

而“慢”推理不追求秒回,而是在行动前暂停、验证、权衡,确保在当前复杂场景下推得深、推得对。

这种看似不讨巧的选择,反而成就了MiroThinker在大模型市场中独树一帜的风格——

不急于给出答案,而是专注求证问题背后的深层逻辑。

在算力约束与复杂任务的博弈中,MiroThinker没有盲目堆砌算力,而是更像一位深谙最优路径的理科生,精打细算将算力落在该去的地方。

结果也很显而易见,只要踏实做好有效交互,慢也不等同于落后,反倒是助力LLM走向真实物理世界更扎实。

事实上,如果仔细看MiroMind的人才梯队建设,同样也很

“稳”

从MiroMind诞生之初,时任盛大副总裁、现任MiroMind COO邴立东博士便开始在新加坡牵头组建初始团队,一路保驾护航MiroThinker来到V1.7。

如今团队实力更是如虎添翼,三位世界级顶尖AI科学家

杜少雷

安波

杨凯峪

同时加入MiroMind。

他们无一不是模型推理领域的熟手,长期致力于开发前沿大模型的推理决策能力。他们的加盟,将共同推动MiroThinker朝着会思考、能行动、可信任的方向进化,从而直面科学、金融和工程领域的实际问题。

至此,随着核心团队逐步到位,MiroMind已经准备好更猛烈的下一阶段冲锋。

有技术、有人才、有资金,还有一以贯之坚持的理念,四角齐全的MiroMind,所以看似入场大模型姗姗来迟,实则每一步都稳扎稳打,后来者居上也就不足为奇了。

P.S.新模型即将上线官网(https://dr.miromind.ai)提供体验。

GitHub:https://github.com/MiroMindAI/MiroThinker

HuggingFace:https://huggingface.co/collections/miromind-ai/mirothinker-17

— 完 —

量子位 QbitAI