Alpha Arena 的热闹背后:为什么 LLM 不适合直接做量化

Alpha Arena 最近火了一阵,尤其是刚开赛那两周,DeepSeek 和 Qwen 的曲线一路往上,远超几家海外大模型,社交媒体上到处是截图和解读。
包括我一个 AI 从业者同学那时候也打电话跟我说,他觉得“这可以缩小普通人和量化机构的差距”,所以自己也准备搞一个。
当然了,对于既了解 LLM 又了解量化交易的从业者来说,微微一笑,祝你幸运~ 我从一开始就不会对这种方法抱有什么期待,后面的事实也是如此:前期一波亮眼收益,时间拉长之后,多数模型的回撤开始显形,结算时盈利的没几个,第二季换了标的和规则、加了四个模式,结局也没有本质变化,都是一坨。
那么为什么 LLM 天然不擅长直接做量化?在量化里,它真正适合干的事情又是什么?
下面按这个思路往下说。
1. Alpha Arena 大致在做什么
先快速把背景交代清楚。
Alpha Arena 是一个真金白银下的 LLM 实盘测评场:给每个大模型同样的起始资金、风控规则、数据接口和 prompt 结构,按几周到一个月的时间窗口比拼收益曲线。首季是在 Hyperliquid 上交易六个主流加密永续,后来在 Season 1.5 把战场挪到了美股,又拆分成 New Baseline、Monk Mode、Situational Awareness、Max Leverage 四种模式。
Season 1 已经结束,最终结果:Qwen 和 DeepSeek 在经历了大幅回撤后,有小幅盈利,也是唯二盈利的模型;其它模型都是中重度亏损,GPT-5、Gemini 的亏损超过 50%。
Season 1.5 换成美股,还多引入了四种不同的模式,目前不论哪种规则下这些模型整体的表现都很糟糕,甚至没有 Season 1 哪种短暂的亮眼表现。
要把这种表现的原因讲清楚,就得回到 LLM 本身到底在干什么。
2. LLM 为什么做不好数字主导的预测和决策?
LLM 惨败的核心原因,在于其底层设计与量化需求存在根本的归纳偏置(Inductive Bias)错配。
对于大语言模型而言,数字不是实数,而是符号串。它的训练目标是预测下一个合理的 Token 序列,而不是下一个精确的实值。在模型内部,“0.8”和“0.11”只是两条不同的字符串,它没有被硬编码为“必然大于”或“必然小于”的关系。模型对数值大小的感知,是通过阅读“0.8 is greater than 0.11”这类语句,在权重里弱约束地“习得”的,而非天生具备的数学严谨性。所以,连小学生就能搞明白的0.8>0.11的问题,我们的大模型搞不懂。
因此,LLM 的核心追求是语言上的合理性和上下文的流畅性,而不是数学上的绝对正确。在金融这种极度依赖精度、高杠杆、强反馈的决策环境中,这种“模糊的合理性”几乎就是灾难。
更何况,Alpha Arena 只是简单地把 K 线、指标和账户状态打包成一篇 “排版精美的小学作文” 喂给模型。这本质上是在让一个语言处理专家去做一个数值状态机的实时决策,其结果自然是南辕北辙。在金融市场极低的信噪比下,缺乏专门时序归纳偏置的 LLM 走上这条路,从一开始就是最难的,所以毫不意外地都变成了韭菜。
3. LLM 在量化里真正适合做什么
简单来说:最好让 LLM 负责处理所有与语言和逻辑流程相关的重活,让专业的数值模型负责贴着数字优化。
最直接的是研究效率。写代码、加注释、复现论文、整理文档,相信现在没有人不在用了;
此外,LLM 还可以承担过去 NLP 在量化交易的职能,它可以从新闻、财报、社交媒体等提取有价值的投资信息、情绪信息,作为因子或者风控规则服务于策略。
已经有不少量化机构已经做出来了根据市场情绪以及新闻下单的策略,最成功的Vida就是很好的一个例子。
还有,结合 MCP 等框架,可以把 LLM 变成自动跑实验的实习生。比如让它们分工合作,分别去读研报、复现因子、训练和回测、探索参数、做出初筛,最后再用自然语言给出一个总结报告。
核心理念始终是:让 LLM 负责“理解世界”和“协助工作”,让经典因子、小网络、以及专门的时序大模型负责“预测数字”和“精算风险”。
4. 如果一定要让 LLM 直接“看盘”,至少要补哪些课
如果有人继续探索“让 LLM 直接盯盘”的方向,在现有架构下,要让这条路不那么惨,至少得在几件事上做出改进。
第一,把行情做成更适合 token 处理的形式。将价格和收益进行离散化、等级化处理,或者将连续时序压缩成更具结构化和语义化的状态描述,让 LLM 看到的不再是原始数据表,而是一个高度浓缩且有利于 Token 处理的“状态机快照”。
第二,金融与数值领域的迁移学习。让对模型进行严格的、针对金融场景的微调和迁移学习,让它吃透数值推理任务,降低那种“连简单数字比较都出错”的低级错误率。
第三,把 LLM 当成多模块协同的一部分。比如底层让专门的时序模型负责吃价格和盘口,LLM 则负责统筹、整合这些数值模型的输出,结合宏观/文本信息,给出风险判断和上层逻辑的决策建议。
这类工作已经有人在做,只不过大多还停留在研究和部分落地阶段。即便做了这些,LLM 在数值预测和决策上的角色,也更像是“统筹+解释+整合”,而不是直接在最前线下单。
5. 所有的 Alpha 最终都是数值:去哪里找“金融世界模型”?
Alpha Arena 的实验结果虽然惨烈,但至少让更多人明白:语言模型的通顺,不等于对金融系统的理解。
当然这完全不意味着大模型在量化里没有未来。倒不如说在 LLM 的领域之外,AI 在量化金融界的研究正在热火朝天:高频微观结构建模、通用时序模型、图神经网络、因果推断、自监督学习、多模态、对手建模和对抗训练……这些方向不需要模型学会“说话”,而是要求模型直接理解概率、博弈和因果。
大模型的非 LLM 部分在我看来反倒更可能是通向金融预测和决策的正确道路,如果未来的终极“金融世界模型”真的诞生,我觉得很可能不会是把语言当作第一公民的聊天机器人。它可能会是某种理解高维张量和随机过程的数值核心,而 LLM 仅仅是它最外层那个负责解释和调度的“大脑皮层”。
这依然是一场赢家通吃的游戏。虽然如果市场极致有效,Alpha 终将消失,但在那一天到来之前,谁能率先把 LLM 的“通识理解”和数值模型的“精准预测”完美融合,谁就能在市场彻底有效化之前,收割掉所有韭菜。
对于Quant来说,AI与量化的故事才刚刚开始。