数据挖掘聚类算法概述

2020/09/29 11:20

文 | 宿痕

来源 | 知乎

本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。

1.聚类 VS 分类

分类是“监督学习”，事先知道有哪些类别可以分。

聚类是“无监督学习”，事先不知道将要分成哪些类。

举个例子，比如苹果、香蕉、猕猴桃、手机、电话机。

根据特征的不同，我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类，和【手机、电话机】为数码产品的一类。

而分类的话，就是我们在判断“草莓”的时候，把它归为“水果”一类。

所以通俗的解释就是：分类是从训练集学习对数据的判断能力，再去做未知数据的分类判断；而聚类就是把相似的东西分为一类，它不需要训练数据进行学习。

学术解释：分类是指分析数据库中的一组对象，找出其共同属性。然后根据分类模型，把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型，然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。

2.聚类的常见应用

我们在实际情况的中的应用会有：

marketing：客户分群

insurance：寻找汽车保险高索赔客户群

urban planning：寻找相同类型的房产

比如你做买家分析、卖家分析时，一定会听到客户分群的概念，用标准分为高价值客户、一般价值客户和潜在用户等，对于不同价值的客户提供不同的营销方案；

还有像在保险公司，那些高索赔的客户是保险公司最care的问题，这个就是影响到保险公司的盈利问题；

还有在做房产的时候，根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。

3.k-means

（1）假定K个clusters（2）目标：寻找紧致的聚类

a.随机初始化clusters

b.分配数据到最近的cluster

c.重复计算clusters

d.repeat直到收敛

优点：局部最优

缺点：对于非凸的cluster有问题

其中K=？

K<=sample size

取决于数据的分布和期望的resolution

AIC，DIC

层次聚类避免了这个问题

4.评估聚类

鲁棒性？

聚类如何，是否过度聚合？

很多时候是取决于聚合后要干什么。

5.case案例

case 1：卖家分群云图

作者：宿痕授权转载

原文链接：http：//zhuanlan.zhihu.com/dataman/20397891

免费直播

精选课程更多

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

¥ 1299

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

¥ 1299

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

¥ 1299

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

¥ 899

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

¥ 399

火热报名中

Excel函数大师班：效率与精通的融合

数据分析师 62次课共62学时

吴开斌

¥ 499-898

火热报名中

0基础入门数据分析5天训练营

数据分析师 5次课共4学时

曹峥

张玮

¥ 8

11912人已报名

Power Bl 商务智能数据分析

数据分析师 37次课共10学时

王忠超

¥ 1299

火热报名中

Excel综合应用案例-进销存、工资管理、应收账款、员工信息人事表

数据分析师 66次课共11学时

吴开斌

¥ 1299

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

¥ 199

火热报名中

查看更多课程

数据挖掘聚类算法概述

免费直播

相关推荐

热门推荐

最新推荐

行业资讯

实战技能

求职就业

数据挖掘 聚类算法概述

免费直播

相关推荐

热门推荐

最新推荐

数据挖掘聚类算法概述