数据挖掘中的特征选择问题

2020/09/28 19:52

数据挖掘中的特征选择问题

特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集，工程上常用的方法：

①计算每一个特征与响应变量的相关性：计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性，但是计算相对复杂一些，好在很多toolkit里边都包含了这个工具（如sklearn的MINE），得到相关性之后就可以排序选择特征了；

②构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征；

③通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验；

④训练能够对特征打分的预选模型：RandomForest和LogisticRegression等都能对模型的特征打分，通过打分获得相关性后再训练最终模型；

⑤通过特征组合后再来选择特征：如对用户id和用户特征最组合来获得较大的特征集再来选择特征，这种做法在推荐系统和广告系统中比较常见，这也是所谓亿级甚至十亿级特征的主要来源，原因是用户数据比较稀疏，组合特征能够同时兼顾全局模型和个性化模型。

⑥通过深度学习来进行特征选择：目前这种手段正在随着深度学习的流行而成为一种手段，尤其是在计算机视觉领域，原因是深度学习具有自动学习特征的能力，这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。