数据挖掘的方法及实施

2020/09/28 10:04

数据挖掘的方法及实施

作为一门处理数据的新兴技术，数据挖掘有许多的新特征。首先，数据挖掘面对的是海量的数据，这也是数据挖掘产生的原因。其次，数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，维数大。最后，数据挖掘是许多学科的交叉，运用了统计学，计算机，数学等学科的技术。以下是常见和应用最广泛的算法和模型：
    传统统计方法：①抽样技术：我们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。②多元统计分析：因子分析，聚类分析等。③统计预测方法，如回归分析，时间序列分析等。
    可视化技术：用图表等方式把数据特征用直观地表述出来，如直方图等，这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
    决策树：利用一系列规则划分，建立树状图，可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
    神经网络：模拟人的神经元功能，经过输入层，隐藏层，输出层等，对数据进行调整，计算，最后得到结果，用于分类和回归。
    遗传算法：基于自然进化理论，模拟基因联合、突变、选择等过程的一种优化技术。
    关联规则挖掘算法：关联规则是描述数据之间存在关系的规则，形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤：①求出大数据项集。②用大数据项集产生关联规则。
    除了上述的常用方法外，还有粗集方法，模糊集合方法，Bayesian Belief Netords，最邻近算法（k-nearest neighbors method（KNN））等。

数据挖掘的实施流程
    前面我们讨论了数据挖掘的定义，功能和方法，现在关键的问题是如何实施，其一般的数据挖掘流程如下：
    问题理解和提出→数据准备→数据整理→建立模型→评价和解释
    问题理解和提出：在开始数据挖掘之前最基础的就是理解数据和实际的业务问题，在这个基础之上提出问题，对目标有明确的定义。
    数据准备：获取原始的数据，并从中抽取一定数量的子集，建立数据挖掘库，其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求，就可以将数据仓库作为数据挖掘库。
    数据整理：由于数据可能是不完全的、有噪声的、随机的，有复杂的数掘结构，就要对数据进行初步的整理，清洗不完全的数据，做初步的描述分析，选择与数据挖掘有关的变量，或者转变变量。
    建立模型：根据数据挖掘的目标和数据的特征，选择合适的模型。
    评价和解释：对数据挖掘的结果进行评价，选择最优的模型，作出评价，运用于实际问题，并且要和专业知识结合对结果进行解释。
    以上的流程不是一次完成的，可能其中某些步骤或者全部要反复进行。