基础篇数据挖掘的聚类算法和优势

2020/09/30 04:11

基础篇：数据挖掘的聚类算法和优势

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）

可以参照一下sklearn网站给出的列表：2.3. Clustering

除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法，然后按照距离把最接近的两个观测（类）合并，直到合并成一个大类为止。

最短距离法：

类间距为两类中最近观测的距离。
不限制类形状，对拉长的分布效果好，会删除边缘的观测点

最长距离法：

类间距为两类中最远观测的距离。
倾向于产生直径相等的类，易受异常值影响。

中间距离法：

类间距为最长距、最短距、类内距离的加权。

重心法：

类间距为两类重心之间的距离
对奇异值稳健

类平均法：

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类，偏向于产生方差相同的类。

离差平方和法：

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类，对异常值敏感

密度估计：

较远的距离设为无穷。较近的两个样本，距离与局部密度成反比。
适用于不规则形状类，不适用样本数太少。

两阶段密度估计：

用密度估计计算距离，再用最短距离法聚类。
普适性较强

除了以上这些常见方法，值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大，邻域范围难以设定的问题，非常鲁棒，看起来棒棒的。

ps：如果希望聚的效果好，距离度量方法有时候比聚类方法更重要。

免费直播

精选课程更多

一节课掌握AI办公提效神器

数据分析师 1次课共1学时

高老师

免费

1210人已报名

Excel常用技巧助你高效办公

数据分析师 3次课共3学时

张玮

¥ 29

火热报名中

职场数据分析训练营-办公效率班

数据分析师 40次课共30学时

曹峥

¥ 2299

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

¥ 399

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

¥ 199

火热报名中

MOS微软国际认证考试

数据分析师 30次课共1学时

高老师

¥ 600-3000

火热报名中

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

¥ 1299

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

¥ 1299

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

¥ 1299

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

¥ 899

火热报名中

查看更多课程

基础篇数据挖掘的聚类算法和优势

免费直播

相关推荐

热门推荐

最新推荐

行业资讯

实战技能

求职就业

基础篇 数据挖掘的聚类算法和优势

免费直播

相关推荐

热门推荐

最新推荐

基础篇数据挖掘的聚类算法和优势