Note: Overlapping labels 重叠的标签, AI for Trading

问题

重叠标签(overlapping labels)问题是使用金融数据训练预测模型遇到的一个问题。如下图所示，假设我们要训练一个模型预测未来一周的收益，最简单的情况下我们会用某一天T的后一周连续收益作为训练的标签(label, i.e. 那个y)。这样每天的样本例子都有一个未来一周的label对应。但由于金融数据有自相关性，连续几天的label通常是相互关联的——这就和大多数机器学习模型的假设冲突，因为这些模型通常假设我们输入的每个样本间是独立同分布的（independent and identically distributed, IID）。

以随机森林(Random Forest)模型为例，如果按照上述样本进行训练，那么一个bag里面的样本很容易互相关联，out-bag的样本也亦如此，于是生成的各个决策树就比较相似，最终导致生成的森林的error rate上升——他们太相似了。

解决方案1：sum-sampling 子采样

如上图，若要训练的目标是未来一周的收益，可以子采样每周五的未来一周收益。这种方法的缺陷很明显，就是少了很多训练数据。设想一下如果预测目标是未来一月或是一年的收益，训练数据就被删的所剩无几了。

解决方案2：调整随机森林的bagging过程

减少每次bag的样本数量，这样一个bag里的样本相关性就会降低。

解决方案3：轮动数据

基于方案1，假设我们还是要未来一周收益，那么可以训练5个不同的模型，分别子采样周一、周二、…、周五的数据，最后合并这五个森林。

来源: AI for Trading, Udacity

Note: Overlapping labels 重叠的标签, AI for Trading

问题

解决方案1：sum-sampling 子采样

解决方案2：调整随机森林的bagging过程

解决方案3：轮动数据

评论

发表回复取消回复

更多文章

2025/10

近几年开过的车的评价

在职申请英国旅游签指南

如何拒绝把快递放到菜鸟驿站

Note: Overlapping labels 重叠的标签, AI for Trading

问题

解决方案1：sum-sampling 子采样

解决方案2：调整随机森林的bagging过程

解决方案3：轮动数据

评论

发表回复 取消回复

更多文章

2025/10

近几年开过的车的评价

在职申请英国旅游签指南

如何拒绝把快递放到菜鸟驿站

发表回复取消回复