数据分析师必须掌握的7种回归分析方法

环球青藤 2020/09/07 09:08

1、线性回归

线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中，由于变量是连续的，因此自变量可以是连续的也可以是离散的，回归线的性质是线性的。

线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。

2、逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0，真/假，是/否)变量时，我们就应该使用逻辑回归.

逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系，因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过拟合和欠拟合，我们应该包括所有重要的变量。有一个很好的方法来确保这种情况，就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。

3、多项式回归

对于一个回归方程，如果自变量的指数大于1，那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误，但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况，并且专注于保证拟合合理，既没有过拟合又没有欠拟合。下面是一个图例，可以帮助理解：

明显地向两端寻找曲线点，看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。

4、逐步回归

在处理多个自变量时，我们可以使用这种形式的回归。在这种技术中，自变量的选择是在一个自动的过程中完成的，其中包括非人为操作。

这一壮举是通过观察统计的值，如R-square，t-stats和AIC指标，来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。

5、岭回归

岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下，尽管最小二乘法(OLS)对每个变量很公平，但它们的差异很大，使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度，来降低标准误差。

除常数项以外，这种回归的假设与最小二乘回归类似;它收缩了相关系数的值，但没有达到零，这表明它没有特征选择功能，这是一个正则化方法，并且使用的是L2正则化。

6、套索回归

它类似于岭回归。除常数项以外，这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零)，确实有助于特征选择;这是一个正则化方法，使用的是L1正则化;如果预测的一组变量是高度相关的，Lasso 会选出其中一个变量并且将其它的收缩为零。

7、回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。Lasso会随机挑选他们其中的一个，而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是，它允许ElasticNet继承循环状态下Ridge的一些稳定性。

通常在高度相关变量的情况下，它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。

关于数据分析师必须掌握的7种回归分析方法，青藤小编就和您分享到这里了，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容，可以点击本站的其他文章进行学习。