特征(feature, X)与响应(outcome, y)之间的互信息(mutual information, MI)是一种衡量两个变量之间相关性的方法。该方法将相关性这一定义拓展到非线性的关系上。具体而言,它衡量了一个随机变量经由另一随机变量能得到的信息量。

MI的概念与信息熵(entropy)的概念密不可分。信息熵度量了一个随机变量携带的信息量。形式上,两个随机变量(X,Y)的互信息I(X,Y)定义如下: 连续形式 continuous mutual information

离散形式 discrete mutual information

sklern.feature_selection.mutual_info_regression方法实现了计算所有特征与一个连续输出之间互信息值的函数,可用于挑选最可能携带预测信息的特征。它也提供一个分类器版本。

本文全文翻译自Stefan Jansen's Hands-On Machine Learning for Algorithmic Trading*

标签: mutual information, feature engineering, sklearn, algorithmic trading, 量化

添加新评论

所有评论将经过人工审核:)