问答详情

数据挖掘常用算法有哪些?

766次观看

标签：数据挖掘常用算法数据挖掘

以下回答来自环球青藤，点击开启技能学习>

老师回答

黄老师数据分析师

1、朴素贝叶斯

朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布)，计算过程非常简单，只是做了一堆计数。NB有一个条件独立性假设，即在类已知的条件下，各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型，如逻辑回归，所以只需要较少的训练数据即可。即使NB条件独立假设不成立，NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用，用mRMR中的R来讲，就是特征冗余。

2、逻辑回归(logistic regression)

逻辑回归是一个分类方法，属于判别式模型，有很多正则化模型的方法(L0，L1，L2)，而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比，还会得到一个不错的概率解释，甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需要一个概率架构(比如，简单地调节分类阈值，指明不确定性，或者是要获得置信区间)，或者希望以后将更多的训练数据快速整合到模型中去，那么可以使用它。

3、线性回归

线性回归是用于回归的，而不像Logistic回归是用于分类，其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化。

4、最近邻算法——KNN

KNN即最近邻算法，其主要过程为：计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离，马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票，得到最后的分类类别;如何选择一个最佳的K值，这取决于数据。

5、决策树

决策树中很重要的一点就是选择一个属性进行分枝，因此要注意一下信息增益的计算公式，并深入理解它。

6、SVM支持向量机

高准确率，为避免过拟合提供了很好的理论保证，而且就算数据在原特征空间线性不可分，只要给个合适的核函数，它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大，难以解释，运行和调参也有些烦人，而随机森林却刚好避开了这些缺点，比较实用。

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

一节课掌握AI办公提效神器

数据分析师 1次课共1学时

高老师

高老师

1211人已报名

Excel常用技巧助你高效办公

数据分析师 3次课共3学时

张玮

火热报名中

职场数据分析训练营-办公效率班

数据分析师 40次课共30学时

曹峥

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

吴开斌

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

高老师

火热报名中

MOS微软国际认证考试

数据分析师 30次课共1学时

高老师

高老师

火热报名中

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

吴开斌

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

王忠超

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

王忠超

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

王忠超

火热报名中

相关推荐

数据挖掘知识点有哪些?

刘老师数据分析师

1.数据、信息和知识是广义数据表现的不同形式。

2.主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识

3.web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘

4.一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。

5.数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识模式的KDD处理模型

6.粗略地说，知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段，其中后面两种反映了目前知识发现软件的两个主要发展方向。

7.决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。

数据挖掘九律分别是什么?

刘老师数据分析师

第一，目标律。数据挖掘是一个业务过程，必须得有业务目标。无目的，无过程。

第二，知识律。业务知识贯穿在挖掘这个业务过程的各环节。

第三，准备律。数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。

第四，NFL律。NFL，没有免费的午餐。没有一个固定的算法适用所有的业务问题，特定应用适合的模型只能通过经验发现。

第五，大卫律。要相信，数中必有业务规律。大卫·沃尔金斯最早提出的，故此名。

第六，洞察律。数据挖掘本质上是增强对业务领域的认知。

第七，预测律。数据挖掘基于过去得出模式，并泛化到类似新事物上，这就是预测，但这是统计概念的。

第八，价值律。挖掘模型的最终价值并非模型精度或稳定性，而是驱动业务行动或通过新洞察导致策略改善。

第九，变化律。人不会两次踏入同一条河流。业务在变，目标在变，认识也在变，甚至规律本身也在变，挖掘模型也得与时俱进。

数据分析的流程是什么?

刘老师数据分析师

1、明确分析的目的，提出问题。只有弄清楚了分析的目的是什么，才能准确定位分析因子，提出有价值的问题，提供清晰的指引方向。

2、数据采集。收集原始数据，数据来源可能是丰富多样的，一般有数据库、互联网、市场调查等。具体办法可以通过加入“埋点”代码，或者使用第三方的数据统计工具。

3、数据处理。对收集到的原始数据进行数据加工，主要包括数据清洗、数据分组、数据检索、数据抽取等处理方法。

4、数据探索。通过探索式分析检验假设值的形成方式，在数据之中发现新的特征，对整个数据集有个全面认识，以便后续选择何种分析策略。

5、分析数据。数据整理完毕，就要对数据进行综合分析和相关分析，需要对产品、业务、技术等了如指掌才行，常常用到分类、聚合等数据挖掘算法。Excel是最简单的数据分析工具，专业数据分析工具有R语言、Python等。

6、得到可视化结果。借助可视化数据，能有效直观地表述想要呈现的信息、观点和建议，比如金字塔图、矩阵图、漏斗图、帕累托图等，同时也可以使用报告等形式与他人交流。

登录｜注册｜电脑版

版权所有 2003-2020 广州环球青藤科技发展有限公司