首页 默认分类 正文
  • 本文约2367字,阅读需12分钟
  • 125
  • 0

不要用日频数据预测股票价格涨还是跌

温馨提示:本文最后更新于2025年11月14日 02:04,若内容或图片失效,请在下方留言或联系博主。

不要用日频数据预测加密货币

1. 从一篇爆款论文讲起

前两年时序预测领域最火的论文之一是 AAAI 2023 的《Are Transformers Effective for Time Series Forecasting?》。它的结论非常炸:在线性分解到位的情况下,许多“长序列预测”的 Transformer 其实打不过一个简单的一层线性模型(作者把这套叫 LTSF‑Linear)。这篇现在已经三千多引用,成了无数论文的默认基线。

问题出在它的“金融数据”代表——Exchange‑Rate。这个数据集其实就是 8 个国家相对美元的日度汇率,1990 到 2016,几十年拉成一条平滑的曲线,变量极少、维度极低、趋势很强。在这么温顺的数据上做预测,任何顺滑的模型都能看起来很厉害,线性模型赢 Transformer 也就不奇怪了。可它并不代表真实可交易的金融问题:没有微观结构、没有交易 frictions、没有容量与冲击,更谈不上实盘里那种 regime 一夜之间换风格。

这一步“偷换概念”影响极大——后面很多时序论文继续用 Exchange‑Rate 当金融代表,刷出很漂亮的误差指标,然后顺手把结论外推到“金融也能这样”。工业世界的人看了只会摇头:这和我们每天面对的问题,几乎不是一个宇宙。

2. 说回“日频为什么不行”

第一,样本太少。十年二十年日频数据不过几千个点,随便一个 LSTM,参数就上万了,你还要做特征、小网格、早停、超参搜索,隐形自由度一路飙升。用这么点样本去驯服这么多自由度,要是真能稳定外推反而会很奇怪。

第二,信号太弱。日度的期望收益通常是 0.x% 的量级,噪声(波动)是 1%—2%。在这么低的信噪比里,除非你有非常长的样本,或者你引入了强结构(比如截面、明确的状态切换、微观约束),否则模型大概率在学噪声。

第三,机制常变。政策、撮合规则、参与者结构、交易时段、做市与流动性,几年就能换好几轮。单一时间序列上“可平稳学习”的隐含设定,在金融里经常不成立。很多论文用随机/混洗切分、用全样本做标准化、做一大堆试验只汇报最好的那次,这些都能轻松制造“漂亮结果”。

3. 工业视角里,我们更关心什么?

其实在传统量化领域,使用日度数据也是很常见的,但是那种日度数据是同一天看成百上千个资产的横截面实现得,样本量按 资产数×时间 增长,信号可以靠分散 idio 噪声来显形。

但是这招放到加密货币上,效果就没那么好了。在这里,可用的高流动币种本来就不多,截面维度有限;而且资产相关性高、很多币都是跟着大饼以太这两个大哥走;再加上产业/叙事切换快,公共成分(系统性)占比高,横截面里能靠平均法消掉的 idio 反倒不多。

所以加密里要做“日度截面择时”,经常会遇到:样本不够、相关性太高、能学到的公共结构就那么几条,而且很快换风格。你把股票市场那套“日度截面因子”直接搬过来,基本走不远。

下面点名一些“日频加密货币预测”的典型写法,用来说明问题。不是为了挤兑作者,只是让读者对套路有感知:

—— 有论文堆了 VAE+CNN+LSTM 一大串去预测三千行比特币日度数据,训练目标还是收盘价,反复拿 0.99 的 R² 说事,毫无意义;

—— 有论文用 2024–2025 的 BTC 日度数据,不到一千行,去做 15 天的价格预测,还上 LSTM 或贝叶斯状态空间模型,对测试误差挑最好的版本讲故事;

这些写法的通常:数据维度低、样本短、目标是“直接预测价格”,评价只报 RMSE/MAE/准确率,不做跨时期稳健性,不做含成本回测,更没有容量和交易冲击的约束。对做交易的人来说,这些结论基本不可执行。

所以我们想写这篇文章,不是说“机器学习没用”,而是说:

别把深度学习用在注定没信息的地方。单资产日频价格预测这个题,先天样本小、SNR 低、机制在变,适合教学演示,不适合宣称“可稳定赚钱”。要么做截面(多资产),要么做微观(高频),要么换到风险侧(波动率、流动性、成交概率),再配上像样的评估(时间顺序切分、walk‑forward、泄露防护、含成本回测、跨阶段稳健性、现实容量)。这样,模型结果才有可能落到钱上。

如果非要一句收尾:

在单资产日频上证明可预测性,偶尔能挖到水,但更多时候只是更接近海市蜃楼。把力气用在维度足够、样本够大、约束真实的任务上,才是让 AI 在金融里产生持续价值的路。

4. 结语

本篇文章只是抨击那些拿日频预测来水论文文章的人,不过也是因为他们带来了一些量化韭菜

在我看来,用15分钟以上的级别都已经很危险很危险,很容易过拟合

如果你觉得不对,那你快去试试,亏完了记得回来留言

主创:高频做市小组成员 - Jervis Zang

指导:苏慕白

参考文献

  • Are Transformers Effective for Time Series Forecasting? AAAI 2023(LTSF‑Linear 基线;其中“Exchange‑Rate”数据其实是 8 条对美元的日度汇率,低维且强趋势)
  • Analysis and Forecasting of Cryptocurrency Markets Using Bayesian and LSTM-Based Models(MDPI Informatics,2025):用 2024–2025 的 BTC 日度数据做 15 天预测;样本极短但上深度网络
  • Enhanced Interpretable Forecasting of Cryptocurrency Prices Using Autoencoder Features and a Hybrid CNN-LSTM Model(MDPI Mathematics, 2025):用 2013–2021 的 BTC 日度数据去预测价格;R²/MAPE 在趋势序列上天然好看但无意义
  • Bitcoin Price Prediction Using LSTM and CNN(SSRN,2025):BTC 十年日度收盘,上 CNN/LSTM 报误差;同样也是预测价格
评论